Size: a a a

2019 July 03

v

vigo in Data Engineers
В Сколково наверное делали
источник

GG

George Gaál in Data Engineers
Eduard Vlasov
Ну оно походу позиционируется как переосмысление aiflow
почему нет-то?
источник

GG

George Gaál in Data Engineers
детские болезни установлены, можно спроектировать и без них.
источник

EV

Eduard Vlasov in Data Engineers
George Gaál
почему нет-то?
источник

GG

George Gaál in Data Engineers
я говорю - почему бы не перепилить эйрфлоу с нуля, если его детские болезни установлены?
источник

R

Renarde in Data Engineers
а вообще судя по сайту - похоже на Advanced API вокруг Dask + Airflow и рекламой в стиле "очередной лучший в мире шедулер"
источник

GG

George Gaál in Data Engineers
airflow там под капотом нет, я смотрел
источник

GG

George Gaál in Data Engineers
dask  - да, возможно не лучшее решение, но вы можете накинуть на вентилятор )
источник

EV

Eduard Vlasov in Data Engineers
George Gaál
я говорю - почему бы не перепилить эйрфлоу с нуля, если его детские болезни установлены?
так я не против, уже сижу читаю доки
источник

R

Renarde in Data Engineers
наброшу с тз применимости - если это не на Airflow, придется писать кучу операторов заново
источник

EV

Eduard Vlasov in Data Engineers
А чем плох dask? )))
источник

AZ

Anton Zadorozhniy in Data Engineers
Carp-Bezverhnii Maxim
Ребята помогите плиз в чем заключается анализ качества данных (data quality check) в анализе формата данных или в анализе отсутствующих данных?
тут все зависит от точки приложения, качество данных где, каких данных?
источник

GG

George Gaál in Data Engineers
Renarde
наброшу с тз применимости - если это не на Airflow, придется писать кучу операторов заново
ага, первое правило эйрфлоу - не пользоваться встроенными операторами, ога
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Anton Zadorozhniy
тут все зависит от точки приложения, качество данных где, каких данных?
Мне просто дали csv с примером данных и дали задачу осуществить проверку в python
источник

AZ

Anton Zadorozhniy in Data Engineers
Carp-Bezverhnii Maxim
Мне просто дали csv с примером данных и дали задачу осуществить проверку в python
в аналитических системах обычно разделяют на техническое качество данных (грубо говоря соответствие модели данных + полнота) и бизнес качество данных (проверка бизнес-правил) - то есть с вашим CSV если кто-то еще дал схему то надо проверить соотвествие схеме (если схемы нет - просто что разделителей в каждой строке нужно количество) и какие-нибудь бизнес-правила напридумывайте и проверьте их
источник

N

Nikita Blagodarnyy in Data Engineers
Сходимость с бухгалтерским балансом
источник

N

Nikita Blagodarnyy in Data Engineers
Например
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Сходимость с бухгалтерским балансом
отличный пример бизнес-правила для качества данных
источник

AZ

Anton Zadorozhniy in Data Engineers
соответствие 302П
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
соответствие 302П
Ыыыы
источник