Телеграмм чат группы hadoopusers страница 2966

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2053 membersпожаловаться на группу

2020 November 17

K

KrivdaTheTriewe in Data Engineers

А как вы жищеным циклом шаблонов управляете

источник

22:04пожаловаться #1

S

Shadilan R16 MU Rost... in Data Engineers

Шаблоны это фактический тот же "Flow" в NiFi который хранится в отдельном бакете в NiFi Registry (это такое версионное хранилище для niFi) соответственно для доработки шаблон клонируется в dev бакет дорабатывается ревьюится, тестируется уже в тест бакете, и дальше накатывается новой версией обратно в SYSTEM бакет где ждет дальнейших доработок, ну и используется для разработки Бизнес Flow. Ты же про это я правильно понял? Генераторы разумеется работают с System бакетом только и с Latest version.

источник

22:07пожаловаться #2

A

Alexander in Data Engineers

Подскажите, может быть сталкивались с Presto? Возможно ли (не теоретически) делать через CTAS CSV файлы на S3?

источник

23:56пожаловаться #3

2020 November 18

AZ

Anton Zadorozhniy in Data Engineers

Подскажите, может быть сталкивались с Presto? Возможно ли (не теоретически) делать через CTAS CSV файлы на S3?

А какой у вас престо и что не работает?

источник

00:06пожаловаться #4

A

Alexander in Data Engineers

Anton Zadorozhniy

А какой у вас престо и что не работает?

346, пока стоит hive.non-managed-table-writes-disabled, утром коллеги переключат) Но хотелось бы понять, работает ли это на практике) Задача налить CSV на ~20GB в один бакет через престо, потом переместить в другой, откуда этот файл заберет другой сервис

источник

00:11пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

346, пока стоит hive.non-managed-table-writes-disabled, утром коллеги переключат) Но хотелось бы понять, работает ли это на практике) Задача налить CSV на ~20GB в один бакет через престо, потом переместить в другой, откуда этот файл заберет другой сервис

В EMR? Кмк должно работать, сам не пробовал, но в Athena работает точно:

CREATE TABLE ctas_csv_unpartitioned 
WITH (
     format = 'TEXTFILE', 
     external_location = 's3://my_athena_results/ctas_csv_unpartitioned/') 
AS SELECT key1, name1, address1, comment1
FROM table1;

источник

00:13пожаловаться #6

N

Nikita Blagodarnyy in Data Engineers

Антон, а как в айсберге можно сделать drop partition? Они ж там вроде как неявные, судя по доке.

источник

00:15пожаловаться #7

A

Alexander in Data Engineers

Anton Zadorozhniy

В EMR? Кмк должно работать, сам не пробовал, но в Athena работает точно:

CREATE TABLE ctas_csv_unpartitioned 
WITH (
     format = 'TEXTFILE', 
     external_location = 's3://my_athena_results/ctas_csv_unpartitioned/') 
AS SELECT key1, name1, address1, comment1
FROM table1;

Ага! Спасибо, надеюсь сработает аналогично🙏

источник

00:16пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

Shadilan R16 MU Rostov

Шаблоны это фактический тот же "Flow" в NiFi который хранится в отдельном бакете в NiFi Registry (это такое версионное хранилище для niFi) соответственно для доработки шаблон клонируется в dev бакет дорабатывается ревьюится, тестируется уже в тест бакете, и дальше накатывается новой версией обратно в SYSTEM бакет где ждет дальнейших доработок, ну и используется для разработки Бизнес Flow. Ты же про это я правильно понял? Генераторы разумеется работают с System бакетом только и с Latest version.

руками?

источник

00:23пожаловаться #9

S

Shadilan R16 MU Rost... in Data Engineers

конечно нет, скрипты на питоне

источник

00:24пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

Антон, а как в айсберге можно сделать drop partition? Они ж там вроде как неявные, судя по доке.

Удалить данные с соответствующим WHERE, он сам определит какие партиции надо убрать

источник

00:47пожаловаться #11

K

KrivdaTheTriewe in Data Engineers

коллеги, а вставлял ли параллельно спарком в терадату записи в таблицы с 150 клобами

источник

00:49пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Кому интересно, на прошлой неделе большой релиз был https://iceberg.apache.org/releases/#0100-release-notes

iceberg.apache.org

Releases - Apache Iceberg

A table format for large, slow-moving tabular data

источник

00:50пожаловаться #13

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

Кому интересно, на прошлой неделе большой релиз был https://iceberg.apache.org/releases/#0100-release-notes

iceberg.apache.org

Releases - Apache Iceberg

A table format for large, slow-moving tabular data

вы уже юзаете у клиентов?

источник

00:56пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

вы уже юзаете у клиентов?

Не могу сказать

источник

00:56пожаловаться #15

K

KrivdaTheTriewe in Data Engineers

источник

00:57пожаловаться #16

SS

Sergey Sheremeta in Data Engineers

дяденьки, а кто-то может по-простому рассказать про типовые сценарии работы со Schema Registry?
ну там пыщь-пыщь, пиу-пиу

источник

00:57пожаловаться #17

SS

Sergey Sheremeta in Data Engineers

вводная:
1) есть поток json в Кафка-топике
2) на старте проЭкта распознана схема этих json'ов и втиснута в Schema Registry
3) согласно этой схеме происходит парсинг сообщений из топика Кафки и прочая ересь
...
прошло несколько дней и выясняется, что данные в json изменились: появились новые важные/нужные поля, переименовали старые
чо делать? прогонять ежедневно джобку, парсящую json'ы за сутки, вычленяющую актуальную схему, сравнивающую с рабочей схемой в SR и апдейтить ее?

источник

01:02пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Sergey Sheremeta

вводная:
1) есть поток json в Кафка-топике
2) на старте проЭкта распознана схема этих json'ов и втиснута в Schema Registry
3) согласно этой схеме происходит парсинг сообщений из топика Кафки и прочая ересь
...
прошло несколько дней и выясняется, что данные в json изменились: появились новые важные/нужные поля, переименовали старые
чо делать? прогонять ежедневно джобку, парсящую json'ы за сутки, вычленяющую актуальную схему, сравнивающую с рабочей схемой в SR и апдейтить ее?

Вам не нужен Schema Registry, просто читайте сообщения как есть, мб используйте паттерн tolerant reader

источник

01:05пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

тип совместимости = backward? а если не проходит проверку на обратную совместимость?

источник

01:05пожаловаться #20