Size: a a a

2021 July 14

N

Nikita Blagodarnyy in Data Engineers
Тут главное, чтобы биллинговые отчёты потом не показывали меньше денег, которые надо компании заплатить. И чтобы ночью дежурная смена не беспокоила падениями с индекс аут оф баунд ексепшон. Кто сказал, что вы на боевых данных выловите все возможные сочетания, которые могут возникнуть в дальнейшем?
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк вы вообще щас про разные вещи говорите
источник

N

Nikita Blagodarnyy in Data Engineers
О, эти великолепные секули на 2000 строк, как я по ним скучаю.
источник

AS

Andrey Smirnov in Data Engineers
Скучал, я вот принёс
источник

AS

Andrey Smirnov in Data Engineers
Переслано от Chern Oleksander
Всем привет, а не подскажите, что может тут быть не правильно?
уже день махаюсь с этим
процедура отрабатывает но не возвращает данные (((
https://pastebin.com/iKnd5bgq

Спасибо
источник

N

Nail in Data Engineers
К сожалению, во многих местах, где я работал, бизнесу и руководителю разработки зачастую глубоко наплевать на накапливающийся техдолг. У них KPI не на этом построен. И если бизнес скажет что вот этот скуль на 2к строк завтра должен быть на проде - увы, не до оптимизации кода. Лишь в одном месте был хороший руководитель разработки, у которого хватало политического веса и стальных яиц, чтобы бодаться с бизнесом за качество кода. Таких мало))
источник

AZ

Anton Zadorozhniy in Data Engineers
ну вот кстати DBTшные тесты хорошо против такого работают: декомпозируем на разные модели, пишем тесты против конкретных кусочков, и  какие-то тесты поверх еще

особенно если это датапайплайн, тут же столько логики описано, ее надо обложить тестами
источник

GP

Grigory Pomadchin in Data Engineers
ну это то реалии уже разные)
источник
2021 July 15

АЖ

Андрей Жуков... in Data Engineers
более, чем достаточно
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, доброе утро!
кто-то пробовал профилировать данные в Clickhouse с помощью great_expectations?
источник

AZ

Anton Zadorozhniy in Data Engineers
я КХ не делал, но у меня стоит в бэклоге добавить поддержку для нашей базы, и я смотрел - вроде там довольно просто, если есть диалект для SQLAlchemy https://docs.greatexpectations.io/en/latest/guides/how_to_guides/miscellaneous/how_to_add_and_test_a_new_sqlalchemydataset_class.html
источник

SS

Sergey Sheremeta in Data Engineers
Антон, спасибо! как всегда - четко и по делу 🙂
источник

РП

Роман Пашкевич... in Data Engineers
Переслано от Роман Пашкевич...
Господа. Есть спецы по HIVE?
Есть пайплайн "Скачивание дельты с источника - вставка в таблицу в HIVE"

Дельта всего 50-60млн строк. Таблица в HIVE партицирована по дате. (и дельта собственно по этой дате и тянется)

У коллег из ETL - вставка данных в HIVE занимает 2,5 часа. И мне кажется это дико странным и очень долгим.

Единственный ньюанс, ETL зачем то используют транзакционные таблицы.
источник

РП

Роман Пашкевич... in Data Engineers
Переслано от Роман Пашкевич...
Вот с точки зрения записи\чтения данных с таблицы. Тем более когда ты записываешь\читаешь конкретную партицию... Почему может быть так долго?
источник

А

Алексей in Data Engineers
партиций много перезаписывается?
источник

А

Алексей in Data Engineers
и бакетирована ли таблица? а то будет столько писателей, сколько бакетов
источник

dz

dimka ztheshek in Data Engineers
данные в базу через питон лучше генератором построчно кидать или же можно df.to_sql, какие +-?
источник

TM

Toemik Mnemonic in Data Engineers
второе точно сильно быстрее
источник

AZ

Anton Zadorozhniy in Data Engineers
зависит от того какая база, сколько грузить..
источник

РП

Роман Пашкевич... in Data Engineers
2 партиции перезаписывается. Собственно тянем все новые данные со вчера. Бакетирование сейчас не применено.
источник