Size: a a a

2019 July 30

K

KrivdaTheTriewe in Data Engineers
как ddl решает задачу datacatalog я не понимаю, если условно тот же glue пляет от данных которые вы положили(читай определяет схему сам)
источник

NT

Nikolay Troshnev in Data Engineers
Не поделитесь опытом про датакаталоги - из чего стоит выбирать и по каким критериям?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
как ddl решает задачу datacatalog я не понимаю, если условно тот же glue пляет от данных которые вы положили(читай определяет схему сам)
Там можно краулерами доставать, а можно самим задавать, мы у себя выбираем проактивный подход, когда схема задается заранее, а не достаётся из того что там надеплоили
источник

AZ

Anton Zadorozhniy in Data Engineers
DDL это основа чтобы накрутить интеллект, также как тот же атлас работает по DDL. Из него строится внутреннее представление датасета, потом можно сравнить с предыдущей версией, сгенерировать какой-нибудь профайлинговый джоб
источник

NT

Nikolay Troshnev in Data Engineers
Anton Zadorozhniy
Там можно краулерами доставать, а можно самим задавать, мы у себя выбираем проактивный подход, когда схема задается заранее, а не достаётся из того что там надеплоили
А на входе схему тоже проверяте? или тестами только результат джобы против DDL покрывается?
источник

DM

Daniel Matveev in Data Engineers
если в обществе нет версионной дифференциации схем, то у такого общества нет будущего ©
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
DDL это основа чтобы накрутить интеллект, также как тот же атлас работает по DDL. Из него строится внутреннее представление датасета, потом можно сравнить с предыдущей версией, сгенерировать какой-нибудь профайлинговый джоб
А как происходит обновление тогда и добавление колонок при деплое, альтеры ?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay Troshnev
А на входе схему тоже проверяте? или тестами только результат джобы против DDL покрывается?
Тесты через хайв, мы же выставляем хайв пользователям
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
А как происходит обновление тогда и добавление колонок при деплое, альтеры ?
Ну собсно для этого датакаталог нужен, мы проверяем по правилам обратной совместимости обновление схемы
источник

AZ

Anton Zadorozhniy in Data Engineers
Датакаталог может остановить деплой, если новая версия не совместима со старой
источник

K

KrivdaTheTriewe in Data Engineers
а дальше как?
источник

K

KrivdaTheTriewe in Data Engineers
ситуация покгда добавили колонку, как она обрабатывается?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
ситуация покгда добавили колонку, как она обрабатывается?
мы автоматично поддерживаем два варианта: добавить колонку только для следующих партиций, либо сделать бэкфил с какой-то старой партиции, все остальное руками
источник

R

Renarde in Data Engineers
Всем привет. Вопрос к тем кто работает с сервисами на AWS - как вы покрываете тестами интеграцию с ними?
Вот скажем, у нас в проекте используются S3, SQS, CloudWatch. Для S3, допустим, есть мок от findify. Но для остальных сервисов такого мока нет, что довольно странно. Нет ли какого-то удобного способа для локального теста SQS и CloudWatch?
источник

AP

Alexander Piminov in Data Engineers
Renarde
Всем привет. Вопрос к тем кто работает с сервисами на AWS - как вы покрываете тестами интеграцию с ними?
Вот скажем, у нас в проекте используются S3, SQS, CloudWatch. Для S3, допустим, есть мок от findify. Но для остальных сервисов такого мока нет, что довольно странно. Нет ли какого-то удобного способа для локального теста SQS и CloudWatch?
Есть Localstack. У него периодически всплывают свои баги, но минимально тестирование AWS API он покрывает.
источник

R

Renarde in Data Engineers
Alexander Piminov
Есть Localstack. У него периодически всплывают свои баги, но минимально тестирование AWS API он покрывает.
понял, спасибо, это (вроде) как раз то, что нам нужно
источник

AP

Alexander Piminov in Data Engineers
Его можно поднять в Docker отдельно от приложения либо при помощи Testcontainers (есть готовый компонент, но в нем версия не самая новая, поэтому лучше через GenericContainer).
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
мы автоматично поддерживаем два варианта: добавить колонку только для следующих партиций, либо сделать бэкфил с какой-то старой партиции, все остальное руками
а почему руками?
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
мы автоматично поддерживаем два варианта: добавить колонку только для следующих партиций, либо сделать бэкфил с какой-то старой партиции, все остальное руками
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
а почему руками?
такие редкие кейсы что накручивать интеллект не нужно
источник