Телеграмм чат группы hadoopusers страница 3174

Добрый день. Я правильно понимаю, что delta lake хранит данные в parquet, а apache hudi в своем проприетарном? Или это оба полностью open source продукта?

источник

11:10пожаловаться #5

N

Nikita Blagodarnyy in Data Engineers

Hudi хранит или только паркет или паркет+логи изменений в авро и евентуалли их вмердживает.

источник

11:19пожаловаться #6

N

Nikita Blagodarnyy in Data Engineers

Зависит от типа таблицы

источник

11:20пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

MOR или COW

источник

11:20пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Mikhail Kuznetsov

Добрый день. Я правильно понимаю, что delta lake хранит данные в parquet, а apache hudi в своем проприетарном? Или это оба полностью open source продукта?

Apache Hudi это проект Apache Software Foundation, насколько я знаю в ASF нет проприетарных проектов, там все Open Source; Delta Lake это компонент Databricks доступный по модели open core (основные интерфейсы в open source, но с очень большими ограничениями, которые можно преодолеть или серьезным дописыванием, или миграцией на Databricks)

источник

14:16пожаловаться #9

N

Nick in Data Engineers

Добрый день. Сторожилы биг даты, сколько на вашей памяти было максимальное и/или среднее кол-во партиций у ваших больших таблиц в hive? Если помните, то ещё как это влияло на перфоменс работы с такой таблицой

источник

19:56пожаловаться #10

AA

Alibek Amangeldiyev in Data Engineers

Всем добрый день, коллеги! Пытаюсь считать с кафки, распарсить json и записать этот датафрейм в hdfs. Весь код на скале. Все работает кроме записи. Ошибка при записи выдает Null Pointer Exception. Может кто-то сталкивался с такой ошибкой?

источник

20:16пожаловаться #11

EK

Evgeny Kincharov in Data Engineers

Alibek Amangeldiyev

Всем добрый день, коллеги! Пытаюсь считать с кафки, распарсить json и записать этот датафрейм в hdfs. Весь код на скале. Все работает кроме записи. Ошибка при записи выдает Null Pointer Exception. Может кто-то сталкивался с такой ошибкой?

проблема в парсинге скорее всего. То что падает на записи говорит о том что парсинг раньше и не начинается (он lazy).

источник

20:24пожаловаться #12

AA

Alibek Amangeldiyev in Data Engineers

Evgeny Kincharov

проблема в парсинге скорее всего. То что падает на записи говорит о том что парсинг раньше и не начинается (он lazy).

Парсинг вот именно отработал и показал df.show() 😀

источник

20:25пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Nick

Добрый день. Сторожилы биг даты, сколько на вашей памяти было максимальное и/или среднее кол-во партиций у ваших больших таблиц в hive? Если помните, то ещё как это влияло на перфоменс работы с такой таблицой

Когда я чинил людям хадупы то постоянно сталкивался с 3-4К партиций в таблице, вроде 10 лет дневных партиций, работает плохо, планирование запросы может очень долго занимать, ещё HS зависал (там прилично проблем в схеме метастора, какие-то не лечатся годами)

источник

20:38пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Хадуп это big data, а много партиций это many data, разные задачи)

источник

20:39пожаловаться #15

NN

No Name in Data Engineers

Anton Zadorozhniy

Хадуп это big data, а много партиций это many data, разные задачи)

Прикольно, а можно раскрыть отличия?)

источник

20:41пожаловаться #16

С

Сюткин in Data Engineers

Anton Zadorozhniy

Хадуп это big data, а много партиций это many data, разные задачи)

Давайте меряться количеством и размером файлов за 1 бизнес день

источник

20:42пожаловаться #17

А

Алексей in Data Engineers

положить метастор хайва в другой хайв) когда метаданные тоже бигдата

источник

20:42пожаловаться #18

NN

No Name in Data Engineers

Nick

Добрый день. Сторожилы биг даты, сколько на вашей памяти было максимальное и/или среднее кол-во партиций у ваших больших таблиц в hive? Если помните, то ещё как это влияло на перфоменс работы с такой таблицой

Я бигдату не сторожил, но сталкивался примерно с около 5к партиций, работало отвратно. Но тут, правда, дело было больше в том, что данные были не оч разложены, но и история была многолетняя.

источник

20:42пожаловаться #19

NN

No Name in Data Engineers

Но вообще partition pruning помогает

источник

20:43пожаловаться #20