Size: a a a

2021 April 14

OI

Oleg Ilinsky in Data Engineers
Привет!
Такой вопрос) есть ли какие-то opensource тулы для DQ?
Ну т.е. понятно, что можно самому написать на spark/sql/map-reduce/etc всякие проверки данных, рисовать графики в графане, отправлять алерты и вот это вот всё. Но мб есть тулы, в которых можно как-то удобно настраивать проверки качества данных из коробки?
источник

SO

Simon Osipov in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

AG

Alexander Gorokhov in Data Engineers
😂
источник

AG

Alexander Gorokhov in Data Engineers
Вот ещё моё изобретение, если уж совсем крыша поехала https://pypi.org/project/jupyter-pytest-2/
источник

PA

Panchenko Andrey in Data Engineers
спасибо за настроение!!!
источник

ПФ

Паша Финкельштейн... in Data Engineers
great expectations
источник

AA

Anton Alekseev in Data Engineers
But why??!!1
I wrote this plugin to write data quality tests in databricks platform.
Это не ответ на вопрос:)
источник

ПБ

Повелитель Бури... in Data Engineers
Если их посадить по кругу, будет лучше, как в ch  писать и читать в любую
источник

ПФ

Паша Финкельштейн... in Data Engineers
Не, там как реаз сейчас оптимально — один исходящий броадкаст, два входящих юникаста у центральных нод, у краевых — один входящий и благодаря этому больше памяти под буфер
источник

OI

Oleg Ilinsky in Data Engineers
Спасибо большое за рекомендации))
great expectations, кстати, видел да, понравилось описание. Остальное тоже посмотрю)
источник

b

burzum in Data Engineers
Всем привет, подскажите пожалуйста, нужно из oracle выгрузить табличку на 300 гигов, я правильно понимаю что мне тут sqoop поможет?
источник

DZ

Dmitry Zuev in Data Engineers
поможет
источник

AZ

Anton Zadorozhniy in Data Engineers
Если разово, в Hadoop и таблица хорошо партицирована - попробуйте Oraoop
источник

b

burzum in Data Engineers
хоть куда-нибудь бы ) цель загрузить в bq по итогу, но нам хоть в каком-то виде (parquet?) положить в бакет, там уже просто
источник

b

burzum in Data Engineers
тоесть да, hadoop запустить можем на гугл облаке если нужно
источник

b

burzum in Data Engineers
спасибо!
источник

AZ

Anton Zadorozhniy in Data Engineers
Вы бы уточнили в вопросе, было бы понятнее
источник

AZ

Anton Zadorozhniy in Data Engineers
Гугл же Alooma купил, наверное там что-то может работать
источник

b

burzum in Data Engineers
Это то, что сейчас называется google data streams?
источник