Size: a a a

2021 September 13

A

Alex in Data Engineers
Что?

libhadoop это отдельная тема :) многие из частей которой давно легаси и апи уже появилось в java 6-7-8-11, но никто не занимается чисткой :(
источник

C

Combot in Data Engineers
Christian Jiménez has been banned! Reason: CAS ban.
источник

Б

Борис in Data Engineers
С днем программиста 🎉🎉🎉
источник

.

._. in Data Engineers
Товарищи, подскажите, пожалуйста. Читаю в данный момент о star и snowflake схемах.

Правильно ли я понимаю, что различие в том , что в звезде все таблицы (dimensions)  имеют связь только с главной таблицей (facts). Чаще всего эти dimensions денормализовагы из-за дороговизны операции join.

В snowflake dimensions могут соединяться с facts через связи с другими dimensions, здесь таблиц зачастую больше и они нормализованы.

Что я упустил, что стоит знать?
источник

.

._. in Data Engineers
Или где это лучше прочитать ещё раз?
источник

AZ

Anton Zadorozhniy in Data Engineers
ну не только из-за дорогого джоина, еще не все оптимизаторы умеют dynamic partition elimination..
но суть вы уловили правильно, в звезде у вас денормализация (которая при больших дименшенах может стоить дорого по месту), так что все плюсы/минусы денормализации сюда можете отнести
источник

.

._. in Data Engineers
Спасибо!
источник

I

Igar in Data Engineers
Привет! Пару дней назад я просил чатик пройти опрос https://ru.surveymonkey.com/r/C72RJHL
Пришло только 14 ответов. Так что если еще люди пройдут, я обновлю результаты.
Пока они таковы:
1) Инструменты:
90% используют Airflow
В остальные 10% попали Dagster,Ab Initio, Oracle Data Integrator, AWS step functions

2) Кол-во джобов:
до 10       7,14%
0 - 100     42,86 %
100 - 1000  21,43 %
более 1000  28,57 %

3) Являются ли проблемой исторические перегрузки?
Наш инструмент позволяет это сделать в несколько кликов     41,67 %
У нас немного данных, можно перезагрузить все и сразу       25,00 %
Это кошмар, много ручной работы для инженера                33,33 %

4) Что больше всего раздражает в используемом вами инструменте?
Такого нет, он идеален                      45,45%
Подвисание джобов и невысокая надежность    27,27%
Медленный интерфейс                         27,27%


5) Если завтра появится новый инструмент, который будет лучше вашего решения во всех аспектах, то захотите/сможете ли вы на него перейти?
Да. Вся логика хранится отдельно и миграция не проблема     16,67 %
Да. Оно стоит потраченных усилий                            41,67 %
Нет. Это очень долго и дорого                               25,00 %
Нет. Наш инструмент полностью нас устраивает                16,67 %
источник

AZ

Anton Zadorozhniy in Data Engineers
То есть где-то существует довольно много пользователей Apache Airflow которые считают что он идеален? Есть о чем задуматься, спасибо.
источник

M

Mikhail in Data Engineers
И тут вспоминается- быстро дешево хорошо, выберите 2
источник

ЕГ

Евгений Глотов... in Data Engineers
Может адаптировались)
источник

AZ

Anton Zadorozhniy in Data Engineers
я тоже сначала подумал что это стокгольмский синдром, надо подумать
источник

ЕГ

Евгений Глотов... in Data Engineers
Главное отобрать у него как можно больше функционала, чтобы он только запускал и макросы прокидывал
источник

ЕГ

Евгений Глотов... in Data Engineers
И тогда жить можно
источник

ЕГ

Евгений Глотов... in Data Engineers
Плюс не все сталкиваются с необходимостью например поменять start_date
источник

ЕГ

Евгений Глотов... in Data Engineers
Или соединить несколько дагов с разным расписанием)
источник

АР

Андрей Романов... in Data Engineers
через сенсоры?
источник

АР

Андрей Романов... in Data Engineers
или как-то по другому?
источник

АР

Андрей Романов... in Data Engineers
в смысле через ExternalTaskSensor
источник

I

Igar in Data Engineers
В данный момент 40% пользователей Airflow считают его идеальным
источник