Телеграмм чат группы hadoopusers страница 1485

15:09пожаловаться #1

кмк можно попробовать сделать такой полностью code-defined pipeline если использовать Dataset а не DF: явно задать классы для входа и выхода, скала метой их доставать и тащить куда-то в каталог..

15:11пожаловаться #2

я смотрю как можно сделать , один из вариантов. Но либо у вас лежакт актуальные данные в джарнике для теста(достаточно чтобы были семплы всех бизнесс данных достаточные для прохождения юнит тестов), следовательно вы всегда можете получить схему которая будет получена в результате выполнения джобы без выполнения самой джобы ,благодаря механизму датафреймов.
Собственно достаточно повесить требование на то, чтобы был метод у джобы, чтобы она схему возвращала и всё

15:11пожаловаться #3

и условный дженкинс уже дергал эту схему и валидировал после билда и тестов

15:11пожаловаться #4

а вы как сами пакуете и деплоите?

15:12пожаловаться #5

небольшой зоопарк, но почти все докерезировано

15:13пожаловаться #6

и эирфлоу всё пускает

15:13пожаловаться #7

я не эксперт в области датагаверенса , скорее ответы ищу)

15:13пожаловаться #8

мне не очень понятно при чем тут докеризация, я спрашивал как вы деплоите? врядли же просто пихаете в регистр образы, есть какой-то сервис / дата каталог который пишет что и каких версий задеплоено...

15:15пожаловаться #9

откуда достать артефакт это последний вопрос вообще

15:15пожаловаться #10

деплоим бамбу, который раскатывает ансибл на эирфлоу среды различные, в ансибле описаны различные парамтерры джоб и версии докер образов джоб

15:18пожаловаться #11

ну и всё это скедулится эирфлоу

15:18пожаловаться #12

и в бамбу видно что и какой версии деплоено

15:19пожаловаться #13

а как вы отвечаете на вопрос "в рамках какого релиза/деплоя был создан этот датасет?"

15:21пожаловаться #14

пока никак

15:22пожаловаться #15

для дата дискавери что-то используете дополнительное, или просто пользователи смотрят в метасторе?

15:23пожаловаться #16

сейчас метастор ( всё что работает вокруг jdbc) , есть атлас

15:24пожаловаться #17

Combot in Data Engineers

Ashraful BOY💦 has been banned! Reason: CAS ban.

15:24пожаловаться #18

ну если вам хватает то наверное хорошо, но часто нужно отвечать на вопросы про то откуда данные, когда появились, когда поменялись и все такое, и тут наверное нужен какой-то датакаталог

15:27пожаловаться #19

Anton Zadorozhniy

я абсолютно согласен, и стремимся к этом, но мне кажется, что датакаталог никак не появляется из того, что кто-то руками написал ddl, но его можно получить при построении процессов , и если вы схему генерируете, то вы всегда можете построить дифф, валидировать предыдущую схему,посомтреть какая она была, сходить во внешние сервисы и сделать много кастомной логики , которая применима только к вашим данным.
опять же, если у вас меняется структура данных в спарк джобе нужно решать, нужна ли миграция старых данных и что делать дальше.