Size: a a a

2020 November 17

K

KrivdaTheTriewe in Data Engineers
А как вы жищеным циклом шаблонов управляете
источник

S

Shadilan R16 MU Rost... in Data Engineers
Шаблоны это фактический тот же "Flow" в NiFi который хранится в отдельном бакете в NiFi Registry (это такое версионное хранилище для niFi) соответственно для доработки шаблон клонируется в dev бакет дорабатывается ревьюится, тестируется уже в тест бакете, и дальше накатывается новой версией обратно в SYSTEM бакет где ждет дальнейших доработок, ну и используется для разработки Бизнес Flow. Ты же про это я правильно понял? Генераторы разумеется работают с System бакетом только и с Latest version.
источник

A

Alexander in Data Engineers
Подскажите, может быть сталкивались с Presto? Возможно ли (не теоретически) делать через CTAS CSV файлы на S3?
источник
2020 November 18

AZ

Anton Zadorozhniy in Data Engineers
Alexander
Подскажите, может быть сталкивались с Presto? Возможно ли (не теоретически) делать через CTAS CSV файлы на S3?
А какой у вас престо и что не работает?
источник

A

Alexander in Data Engineers
Anton Zadorozhniy
А какой у вас престо и что не работает?
346, пока стоит  hive.non-managed-table-writes-disabled, утром коллеги переключат) Но хотелось бы понять, работает ли это на практике) Задача налить CSV на ~20GB в один бакет через престо, потом переместить в другой, откуда этот файл заберет другой сервис
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander
346, пока стоит  hive.non-managed-table-writes-disabled, утром коллеги переключат) Но хотелось бы понять, работает ли это на практике) Задача налить CSV на ~20GB в один бакет через престо, потом переместить в другой, откуда этот файл заберет другой сервис
В EMR? Кмк должно работать, сам не пробовал, но в Athena работает точно:
CREATE TABLE ctas_csv_unpartitioned
WITH (
    format = 'TEXTFILE',
    external_location = 's3://my_athena_results/ctas_csv_unpartitioned/')
AS SELECT key1, name1, address1, comment1
FROM table1;
источник

N

Nikita Blagodarnyy in Data Engineers
Антон, а как в айсберге можно сделать drop partition? Они ж там вроде как неявные, судя по доке.
источник

A

Alexander in Data Engineers
Anton Zadorozhniy
В EMR? Кмк должно работать, сам не пробовал, но в Athena работает точно:
CREATE TABLE ctas_csv_unpartitioned
WITH (
    format = 'TEXTFILE',
    external_location = 's3://my_athena_results/ctas_csv_unpartitioned/')
AS SELECT key1, name1, address1, comment1
FROM table1;
Ага! Спасибо, надеюсь сработает аналогично🙏
источник

K

KrivdaTheTriewe in Data Engineers
Shadilan R16 MU Rostov
Шаблоны это фактический тот же "Flow" в NiFi который хранится в отдельном бакете в NiFi Registry (это такое версионное хранилище для niFi) соответственно для доработки шаблон клонируется в dev бакет дорабатывается ревьюится, тестируется уже в тест бакете, и дальше накатывается новой версией обратно в SYSTEM бакет где ждет дальнейших доработок, ну и используется для разработки Бизнес Flow. Ты же про это я правильно понял? Генераторы разумеется работают с System бакетом только и с Latest version.
руками?
источник

S

Shadilan R16 MU Rost... in Data Engineers
конечно нет, скрипты на питоне
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Антон, а как в айсберге можно сделать drop partition? Они ж там вроде как неявные, судя по доке.
Удалить данные с соответствующим WHERE, он сам определит какие партиции надо убрать
источник

K

KrivdaTheTriewe in Data Engineers
коллеги, а вставлял ли параллельно спарком в терадату записи в таблицы с 150 клобами
источник

AZ

Anton Zadorozhniy in Data Engineers
Кому интересно, на прошлой неделе большой релиз был https://iceberg.apache.org/releases/#0100-release-notes
источник

K

KrivdaTheTriewe in Data Engineers
вы уже юзаете у клиентов?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
вы уже юзаете у клиентов?
Не могу сказать
источник

K

KrivdaTheTriewe in Data Engineers
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, а кто-то может по-простому рассказать про типовые сценарии работы со Schema Registry?
ну там пыщь-пыщь, пиу-пиу
источник

SS

Sergey Sheremeta in Data Engineers
вводная:
1) есть поток json в Кафка-топике
2) на старте проЭкта распознана схема этих json'ов и втиснута в Schema Registry
3) согласно этой схеме происходит парсинг сообщений из топика Кафки и прочая ересь
...
прошло несколько дней и выясняется, что данные в json изменились: появились новые важные/нужные поля, переименовали старые
чо делать? прогонять ежедневно джобку, парсящую json'ы за сутки, вычленяющую актуальную схему, сравнивающую с рабочей схемой в SR и апдейтить ее?
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
вводная:
1) есть поток json в Кафка-топике
2) на старте проЭкта распознана схема этих json'ов и втиснута в Schema Registry
3) согласно этой схеме происходит парсинг сообщений из топика Кафки и прочая ересь
...
прошло несколько дней и выясняется, что данные в json изменились: появились новые важные/нужные поля, переименовали старые
чо делать? прогонять ежедневно джобку, парсящую json'ы за сутки, вычленяющую актуальную схему, сравнивающую с рабочей схемой в SR и апдейтить ее?
Вам не нужен Schema Registry, просто читайте сообщения как есть, мб используйте паттерн tolerant reader
источник

SS

Sergey Sheremeta in Data Engineers
тип совместимости = backward? а если не проходит проверку на обратную совместимость?
источник