Телеграмм чат группы hadoopusers страница 3202

2021 January 30

GP

Grigory Pomadchin in Data Engineers

Есть ещё алмонд кернел для журитера

источник

16:56пожаловаться #1

GP

Grigory Pomadchin in Data Engineers

Хороший

источник

16:56пожаловаться #2

2021 January 31

UR

Uncle Ruckus in Data Engineers

Дамы и господа, кто-нибудь делал так, чтобы к standalone'нному Zeppelin'овскому thrift-интерфейсу от спарка можно было подцепиться снаружи (registerTempTable и вот это все)

источник

01:00пожаловаться #3

UR

Uncle Ruckus in Data Engineers

Проблематика: делаю что-то локальное на спарке, хочу видеть в BIке без промежуточных выгрузок

источник

01:03пожаловаться #4

UR

Uncle Ruckus in Data Engineers

Понимаю смысла нет, но очень зочется

источник

01:04пожаловаться #5

AC

Alexander C in Data Engineers

🚀 Онлайн event по ML/DS от "SBERLOGA"
⌚ Понельник 1 февраля, 19.00 по Москве
👨‍🔬 Совместное обсуждение ODS
курса : "Графы знаний" (Knowledge Graphs) от Михаила Галкина и К

Смотрим лекцию 2 "RDF & RDFS & OWL" https://youtu.be/s7zpHzVp8Ik
Вначале собираемся в зуме, смотрим первый фргамент лекции, останваливаем просмотр, обсуждаем 5-7 минут, смотрим следующий фрагмент и так далее.

Присоединяйтесь к тг чату @kg_course для дополнительноной информации и получения ссылки на зум. Анонс курса : https://youtu.be/L5LPxpM1srA

Сайт курса:
https://ods.ai/tracks/kgcourse2021

YouTube

Графы знаний | Лекция 2 - RDF, RDFS, OWL

Вторая лекция курса по графам знаний с описанием стандартов RDF, RDFS, OWL.

Полный курс доступен на платформе ODS: https://ods.ai/tracks/kgcourse2021
Дополнительные материалы (слайды, конспекты, домашние задания) доступны на платформе

источник

20:10пожаловаться #6

2021 February 01

ME

Max Efremov in Data Engineers

Подскажите, а есть какие-то тулы для генерации метрик в реалтайме для проверки нагрузки бигдатных тулов? Например, выплёвывать в кафку 100к записей в минуту определённого формата. Или писать в HDFS новые метрики постоянно, чтобы протестить, как оно обрабатывается.
Сейчас погуглил и вижу что-то вроде https://www.guru99.com/test-data-generation-tools.html но оно для реляционных баз расчитано

Guru99

15 BEST Data Generator Tools for Test Data Generation in 2021

List of Top 15 Test Data Generator tools, with their popular features. The list contains both open-source(free) and commercial(paid) test data generation software.

источник

13:00пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

Паша Финкельштейн

Так, а дальше? Ну вот у меня есть пайплайн, предлагаешь Егор целиком вместе со всеми источниками и промежуточными хранилищами поднимать в tc?

https://medium.com/@eugene_lopatkin/apache-spark-integration-testing-32d9aa9860be

Medium

Apache Spark Integration Testing

Testing with HDFS

источник

14:02пожаловаться #8

T

T in Data Engineers

Паша Финкельштейн

Так, а дальше? Ну вот у меня есть пайплайн, предлагаешь Егор целиком вместе со всеми источниками и промежуточными хранилищами поднимать в tc?

Ну у нас, на пример, последний этап перед выкаткой в прод end-to-end тестирование когда целиком пайплайну со всеми зависимостями прогоням на тестовом енве.

источник

14:08пожаловаться #9

NB

Nikita Bakanchev in Data Engineers

T

Ну у нас, на пример, последний этап перед выкаткой в прод end-to-end тестирование когда целиком пайплайну со всеми зависимостями прогоням на тестовом енве.

А заполнение синтетикой для юз кейсов или просто слепок?

источник

14:14пожаловаться #10

T

T in Data Engineers

Nikita Bakanchev

А заполнение синтетикой для юз кейсов или просто слепок?

для end to end берутся данные с прода, для юнит прсото синтектика

источник

14:14пожаловаться #11

T

T in Data Engineers

У нас несколько уровней тестов ибо ночью просыпатся ни кто не хочет, вот что онкол животворящий делает

+ строгие требования к стилю кода и количеству апрувов для мерджа в мастер

источник

14:15пожаловаться #12

NB

Nikita Bakanchev in Data Engineers

T

У нас несколько уровней тестов ибо ночью просыпатся ни кто не хочет, вот что онкол животворящий делает

+ строгие требования к стилю кода и количеству апрувов для мерджа в мастер

Насколько по времени усложняется девелопмент при подключении новых источников или разработки сложной денормализованной структуры из нескольких источников? Кажется, что наполнить синтетикой для прохождения тестов, занимает гораздо больше времени, чем простая разработка пайплайна

источник

14:21пожаловаться #13

T

T in Data Engineers

Nikita Bakanchev

Насколько по времени усложняется девелопмент при подключении новых источников или разработки сложной денормализованной структуры из нескольких источников? Кажется, что наполнить синтетикой для прохождения тестов, занимает гораздо больше времени, чем простая разработка пайплайна

А у нас достаточно простой кейс, новых источников почти нет, а если есть то они все контролируемые и пилятся соседними командами. Да придумывание корнер кейсов занимает достаточно много времени но обеспечивают нам спокойные ночи.
Так как у нас все инхаус то с бизнесом легко договорится и они готовы жертвовать скорость выкатки новых фич во благо надежности. Да и данных особо не много порядка 50 тб за ночь в сумме прогоняется

источник

14:24пожаловаться #14

NB

Nikita Bakanchev in Data Engineers

T

А у нас достаточно простой кейс, новых источников почти нет, а если есть то они все контролируемые и пилятся соседними командами. Да придумывание корнер кейсов занимает достаточно много времени но обеспечивают нам спокойные ночи.
Так как у нас все инхаус то с бизнесом легко договорится и они готовы жертвовать скорость выкатки новых фич во благо надежности. Да и данных особо не много порядка 50 тб за ночь в сумме прогоняется

Понятно, спасибо!

источник

14:32пожаловаться #15

AE

Anastasiya Esiunina in Data Engineers

подскажите, кто-нибудь, как-нибудь тюнил msck repair table в hive? час висит, партиции по дням за 4 года, не знаю много ли это..

источник

20:43пожаловаться #16

D

Dmitry in Data Engineers

Всем привет! Есть желание перейти с java-разработчика на data engineer. Подскажите, пожалуйста, насколько для data engineer является критичным знание scala? Есть смысл упираться в него? И второй вопрос: насколько много в профессии data engineer самого программирования по сравнению с чистыми разработчиками? Может, кто-то поделится опытом перехода из разработчика в дата-инженеры? Заранее благодарю!

источник

20:50пожаловаться #17

M

Mi in Data Engineers

Dmitry

Всем привет! Есть желание перейти с java-разработчика на data engineer. Подскажите, пожалуйста, насколько для data engineer является критичным знание scala? Есть смысл упираться в него? И второй вопрос: насколько много в профессии data engineer самого программирования по сравнению с чистыми разработчиками? Может, кто-то поделится опытом перехода из разработчика в дата-инженеры? Заранее благодарю!

- Scala не критична, но скорее всего так или иначе надо будет с ней сталкиваться, читать, либо учиться писать. Много где ищут джавистов с целью их посадить на скалу.
- Количество программирования зависит от того что ты под этим подразумеваешь и зависит от проекта. Я бы сказал меньше процентов на 30 максимум (если вообще меньше)

источник

20:53пожаловаться #18

Oא

Oleg אולג in Data Engineers

Мне кажется джависту не так долго учить скалу, если не вдаваться

источник

20:56пожаловаться #19

ИК

Иван Калининский... in Data Engineers

Anastasiya Esiunina

подскажите, кто-нибудь, как-нибудь тюнил msck repair table в hive? час висит, партиции по дням за 4 года, не знаю много ли это..

Час это многовато, я видел, партиции по часам (ааааа!!) за пару лет несколько часов обновлялись, но отработали

После этого случая я пробовал перевести на параллельное выполнение alter table add/drop partition (scala/Spark), на больших объёмах было примерно до полутора раз быстрее, но функция заметно сложнее, чем msck repair, на который можно положиться в любом случае, поэтому не стал заморачиваться и удалил эту ветку. Внутреннюю реализацию msck repair не менял, не видел, не знаю

источник

20:58пожаловаться #20