Size: a a a

2019 July 30

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
интересно, так эти данные получается у вас в артефакте лежат? или какая-то схема кодогенерации между билдом и упаковкой?
такого нет
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк можно попробовать сделать такой полностью code-defined pipeline если использовать Dataset а не DF: явно задать классы для входа и выхода, скала метой их доставать и тащить куда-то в каталог..
источник

K

KrivdaTheTriewe in Data Engineers
я смотрю как можно сделать , один из вариантов. Но либо у вас лежакт актуальные данные в джарнике для теста(достаточно чтобы были семплы всех бизнесс данных достаточные для прохождения юнит тестов), следовательно вы всегда можете получить схему которая будет получена в результате выполнения джобы без  выполнения самой джобы ,благодаря механизму датафреймов.
Собственно достаточно повесить требование на то, чтобы был метод у джобы, чтобы она схему возвращала и всё
источник

K

KrivdaTheTriewe in Data Engineers
и условный дженкинс уже дергал эту схему и валидировал после билда и тестов
источник

AZ

Anton Zadorozhniy in Data Engineers
а вы как сами пакуете и деплоите?
источник

K

KrivdaTheTriewe in Data Engineers
небольшой зоопарк, но почти все докерезировано
источник

K

KrivdaTheTriewe in Data Engineers
и эирфлоу всё пускает
источник

K

KrivdaTheTriewe in Data Engineers
я не эксперт в области датагаверенса , скорее ответы ищу)
источник

AZ

Anton Zadorozhniy in Data Engineers
мне не очень понятно при чем тут докеризация, я спрашивал как вы деплоите? врядли же просто пихаете в регистр образы, есть какой-то сервис / дата каталог который пишет что и каких версий задеплоено...
источник

AZ

Anton Zadorozhniy in Data Engineers
откуда достать артефакт это последний вопрос вообще
источник

K

KrivdaTheTriewe in Data Engineers
деплоим бамбу, который раскатывает ансибл на эирфлоу среды различные, в ансибле описаны различные парамтерры джоб  и версии докер образов джоб
источник

K

KrivdaTheTriewe in Data Engineers
ну и всё это скедулится эирфлоу
источник

K

KrivdaTheTriewe in Data Engineers
и в бамбу видно что и какой версии деплоено
источник

AZ

Anton Zadorozhniy in Data Engineers
а как вы отвечаете на вопрос "в рамках какого релиза/деплоя был создан этот датасет?"
источник

K

KrivdaTheTriewe in Data Engineers
пока никак
источник

AZ

Anton Zadorozhniy in Data Engineers
для дата дискавери что-то используете дополнительное, или просто пользователи смотрят в метасторе?
источник

K

KrivdaTheTriewe in Data Engineers
сейчас метастор ( всё что работает вокруг jdbc) , есть атлас
источник

C

Combot in Data Engineers
Ashraful BOY💦 has been banned! Reason: CAS ban.
источник

AZ

Anton Zadorozhniy in Data Engineers
ну если вам хватает то наверное хорошо, но часто нужно отвечать на вопросы про то откуда данные, когда появились, когда поменялись и все такое, и тут наверное нужен какой-то датакаталог
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
ну если вам хватает то наверное хорошо, но часто нужно отвечать на вопросы про то откуда данные, когда появились, когда поменялись и все такое, и тут наверное нужен какой-то датакаталог
я абсолютно согласен, и стремимся к этом, но мне кажется, что датакаталог никак не появляется из того, что кто-то руками написал ddl, но его можно получить  при построении процессов , и если вы схему генерируете, то вы всегда можете построить дифф, валидировать предыдущую схему,посомтреть какая она была, сходить во внешние сервисы и сделать много кастомной логики , которая применима только к вашим данным.
опять же, если у вас меняется структура данных в спарк джобе нужно решать, нужна ли миграция старых данных и что делать дальше.
источник