Size: a a a

2019 July 03

UD

Uncel Duk in Data Engineers
btw амбарь там все штоле? активность чет упала в репе
источник

ЕГ

Евгений Глотов in Data Engineers
Хотя бывали случаи, когда ломался один аппликейшен при падении РМ, и приходилось чистить зукипер от него, иначе РМ не поднимался
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Может ктото прислать пару примеров как делать data quality checks?
Заранее благодарен!
источник

A

Anton Kovalenko in Data Engineers
Uncel Duk
btw амбарь там все штоле? активность чет упала в репе
Хортон это ещё зимой анонсировал, когда стало известно про поглощение.
источник

A

Anton Kovalenko in Data Engineers
У Клаудеры есть свой менеджер, зачем ей конкурент в лице амбари
источник

UD

Uncel Duk in Data Engineers
Anton Kovalenko
Хортон это ещё зимой анонсировал, когда стало известно про поглощение.
@ на последнем вебинаре клаудера пафосно показывала клаудбрик
источник

UD

Uncel Duk in Data Engineers
источник

EV

Eduard Vlasov in Data Engineers
🤷‍♂️
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Ребята помогите плиз в чем заключается анализ качества данных (data quality check) в анализе формата данных или в анализе отсутствующих данных?
источник

DP

Dumitru Preguza in Data Engineers
Почему получаю: Exception in thread "main" org.apache.spark.sql.AnalysisException: Undefined function: 'to_json'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 0  ?
источник

GP

Grigory Pomadchin in Data Engineers
Dumitru Preguza
Почему получаю: Exception in thread "main" org.apache.spark.sql.AnalysisException: Undefined function: 'to_json'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 0  ?
спарка версия какая?
источник

GP

Grigory Pomadchin in Data Engineers
похоже, что старый спарк у тебя
источник

EV

Eduard Vlasov in Data Engineers
Carp-Bezverhnii Maxim
Ребята помогите плиз в чем заключается анализ качества данных (data quality check) в анализе формата данных или в анализе отсутствующих данных?
У меня нет системных знаний в это области, но я вижу это как перечень проверок:
данные вообще есть
свойства имеют нужный тип и размер
свойства заполнены там где они обязательны
опционально: свойства подчиняются заданному распределению
источник

EV

Eduard Vlasov in Data Engineers
ну и сверху приделано некое решение которое отбростит некачественные данные куда-нибудь где их можно потом поглядеть и отправит алерт
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Спс
источник

EV

Eduard Vlasov in Data Engineers
Тут в соседнем чатике вбросили:
prefect.io
кто-то пробовал? :)
источник

DS

Dmitriy Solodukha in Data Engineers
Че то там русским духом пахнет
источник

DS

Dmitriy Solodukha in Data Engineers
Похоже русские делали
источник

R

Renarde in Data Engineers
Eduard Vlasov
Тут в соседнем чатике вбросили:
prefect.io
кто-то пробовал? :)
> real-time
> in Python
НУ-НУ
источник

EV

Eduard Vlasov in Data Engineers
Ну оно походу позиционируется как переосмысление aiflow
источник