Size: a a a

2021 January 30

GP

Grigory Pomadchin in Data Engineers
Есть ещё алмонд кернел для журитера
источник

GP

Grigory Pomadchin in Data Engineers
Хороший
источник
2021 January 31

UR

Uncle Ruckus in Data Engineers
Дамы и господа, кто-нибудь делал так, чтобы к standalone'нному Zeppelin'овскому thrift-интерфейсу от спарка можно было подцепиться снаружи (registerTempTable и вот это все)
источник

UR

Uncle Ruckus in Data Engineers
Проблематика: делаю что-то локальное на спарке, хочу видеть в BIке без промежуточных выгрузок
источник

UR

Uncle Ruckus in Data Engineers
Понимаю смысла нет, но очень зочется
источник

AC

Alexander C in Data Engineers
🚀 Онлайн event по ML/DS от "SBERLOGA"  
⌚ Понельник 1 февраля, 19.00 по Москве
👨‍🔬 Совместное обсуждение ODS
курса  :   "Графы знаний" (Knowledge Graphs) от Михаила Галкина и К  

Смотрим лекцию 2 "RDF & RDFS & OWL" https://youtu.be/s7zpHzVp8Ik
Вначале собираемся в зуме, смотрим первый фргамент лекции,  останваливаем просмотр, обсуждаем 5-7 минут,  смотрим следующий фрагмент и так далее.

Присоединяйтесь к тг чату @kg_course для дополнительноной информации и получения ссылки на зум.  Анонс курса : https://youtu.be/L5LPxpM1srA

Сайт курса:
https://ods.ai/tracks/kgcourse2021
источник
2021 February 01

ME

Max Efremov in Data Engineers
Подскажите, а есть какие-то тулы для генерации метрик в реалтайме для проверки нагрузки бигдатных тулов? Например, выплёвывать в кафку 100к записей в минуту определённого формата. Или писать в HDFS новые метрики постоянно, чтобы протестить, как оно обрабатывается.
Сейчас погуглил и вижу что-то вроде https://www.guru99.com/test-data-generation-tools.html но оно для реляционных баз расчитано
источник

N

Nikita Blagodarnyy in Data Engineers
Паша Финкельштейн
Так, а дальше? Ну вот у меня есть пайплайн, предлагаешь Егор целиком вместе со всеми источниками и промежуточными хранилищами поднимать в tc?
источник

T

T in Data Engineers
Паша Финкельштейн
Так, а дальше? Ну вот у меня есть пайплайн, предлагаешь Егор целиком вместе со всеми источниками и промежуточными хранилищами поднимать в tc?
Ну у нас, на пример, последний этап перед выкаткой в прод end-to-end тестирование когда целиком пайплайну со всеми зависимостями прогоням на тестовом енве.
источник

NB

Nikita Bakanchev in Data Engineers
T
Ну у нас, на пример, последний этап перед выкаткой в прод end-to-end тестирование когда целиком пайплайну со всеми зависимостями прогоням на тестовом енве.
А заполнение синтетикой для юз кейсов или просто слепок?
источник

T

T in Data Engineers
Nikita Bakanchev
А заполнение синтетикой для юз кейсов или просто слепок?
для end to end берутся данные с прода, для юнит прсото синтектика
источник

T

T in Data Engineers
У нас несколько уровней тестов ибо ночью просыпатся ни кто не хочет, вот что онкол животворящий делает

+ строгие требования к стилю кода и количеству апрувов для мерджа в мастер
источник

NB

Nikita Bakanchev in Data Engineers
T
У нас несколько уровней тестов ибо ночью просыпатся ни кто не хочет, вот что онкол животворящий делает

+ строгие требования к стилю кода и количеству апрувов для мерджа в мастер
Насколько по времени усложняется девелопмент при подключении новых источников или разработки сложной денормализованной структуры из нескольких источников? Кажется, что наполнить синтетикой для прохождения тестов, занимает гораздо больше времени, чем простая разработка пайплайна
источник

T

T in Data Engineers
Nikita Bakanchev
Насколько по времени усложняется девелопмент при подключении новых источников или разработки сложной денормализованной структуры из нескольких источников? Кажется, что наполнить синтетикой для прохождения тестов, занимает гораздо больше времени, чем простая разработка пайплайна
А у нас достаточно простой кейс, новых источников почти нет, а если есть то они все контролируемые и пилятся соседними командами. Да придумывание корнер кейсов занимает достаточно много времени но обеспечивают нам спокойные ночи.
Так как у нас все инхаус то с бизнесом легко договорится и они готовы жертвовать скорость выкатки новых фич во благо надежности. Да и данных особо не много порядка 50 тб за ночь в сумме прогоняется
источник

NB

Nikita Bakanchev in Data Engineers
T
А у нас достаточно простой кейс, новых источников почти нет, а если есть то они все контролируемые и пилятся соседними командами. Да придумывание корнер кейсов занимает достаточно много времени но обеспечивают нам спокойные ночи.
Так как у нас все инхаус то с бизнесом легко договорится и они готовы жертвовать скорость выкатки новых фич во благо надежности. Да и данных особо не много порядка 50 тб за ночь в сумме прогоняется
Понятно, спасибо!
источник

AE

Anastasiya Esiunina in Data Engineers
подскажите, кто-нибудь, как-нибудь тюнил msck repair table в hive? час висит, партиции по дням за 4 года, не знаю много ли это..
источник

D

Dmitry in Data Engineers
Всем привет! Есть желание перейти с java-разработчика на data engineer. Подскажите, пожалуйста, насколько для data engineer является критичным знание scala? Есть смысл упираться в него? И второй вопрос: насколько много в профессии data engineer самого программирования по сравнению с чистыми разработчиками? Может, кто-то поделится опытом перехода из разработчика в дата-инженеры? Заранее благодарю!
источник

M

Mi in Data Engineers
Dmitry
Всем привет! Есть желание перейти с java-разработчика на data engineer. Подскажите, пожалуйста, насколько для data engineer является критичным знание scala? Есть смысл упираться в него? И второй вопрос: насколько много в профессии data engineer самого программирования по сравнению с чистыми разработчиками? Может, кто-то поделится опытом перехода из разработчика в дата-инженеры? Заранее благодарю!
- Scala не критична, но скорее всего так или иначе надо будет с ней сталкиваться, читать, либо учиться писать. Много где ищут джавистов с целью их посадить на скалу.
- Количество программирования зависит от того что ты под этим подразумеваешь и зависит от проекта. Я бы сказал меньше процентов на 30 максимум (если вообще меньше)
источник

Oleg אולג in Data Engineers
Мне кажется джависту не так долго учить скалу, если не вдаваться
источник

ИК

Иван Калининский... in Data Engineers
Anastasiya Esiunina
подскажите, кто-нибудь, как-нибудь тюнил msck repair table в hive? час висит, партиции по дням за 4 года, не знаю много ли это..
Час это многовато, я видел, партиции по часам (ааааа!!) за пару лет несколько часов обновлялись, но отработали

После этого случая я пробовал перевести на параллельное выполнение alter table add/drop partition (scala/Spark), на больших объёмах было примерно до полутора раз быстрее, но функция заметно сложнее, чем msck repair, на который можно положиться в любом случае, поэтому не стал заморачиваться и удалил эту ветку. Внутреннюю реализацию msck repair не менял, не видел, не знаю
источник