Size: a a a

2021 January 26

SA

Sean X. A. — Ag./WO.... in Data Engineers
but cant fetch it
источник

JG

Jesus Gonzalez in Data Engineers
Yeah I am
источник

KS

K S in Data Engineers
Как проверить почему запрос типа
show databases

в консоли Hive выполняется около минуты? Backend  postgres, захожу через psql вроде всё быстро.
источник

KS

K S in Data Engineers
источник

MK

Mikhail Kuznetsov in Data Engineers
Добрый день. Я правильно понимаю, что delta lake хранит данные в parquet, а apache hudi в своем проприетарном? Или это оба полностью open source продукта?
источник

N

Nikita Blagodarnyy in Data Engineers
Hudi хранит или только паркет или паркет+логи изменений в авро и евентуалли их вмердживает.
источник

N

Nikita Blagodarnyy in Data Engineers
Зависит от типа таблицы
источник

N

Nikita Blagodarnyy in Data Engineers
MOR или COW
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Kuznetsov
Добрый день. Я правильно понимаю, что delta lake хранит данные в parquet, а apache hudi в своем проприетарном? Или это оба полностью open source продукта?
Apache Hudi это проект Apache Software Foundation, насколько я знаю в ASF нет проприетарных проектов, там все Open Source; Delta Lake это компонент Databricks доступный по модели open core (основные интерфейсы в open source, но с очень большими ограничениями, которые можно преодолеть или серьезным дописыванием, или миграцией на Databricks)
источник

N

Nick in Data Engineers
Добрый день. Сторожилы биг даты, сколько на вашей памяти было максимальное и/или среднее кол-во партиций у ваших больших таблиц в hive? Если помните, то ещё как это влияло на перфоменс работы с такой таблицой
источник

AA

Alibek Amangeldiyev in Data Engineers
Всем добрый день, коллеги! Пытаюсь считать с кафки, распарсить json и записать этот датафрейм в hdfs. Весь код на скале. Все работает кроме записи. Ошибка при записи выдает Null Pointer Exception. Может кто-то сталкивался с такой ошибкой?
источник

EK

Evgeny Kincharov in Data Engineers
Alibek Amangeldiyev
Всем добрый день, коллеги! Пытаюсь считать с кафки, распарсить json и записать этот датафрейм в hdfs. Весь код на скале. Все работает кроме записи. Ошибка при записи выдает Null Pointer Exception. Может кто-то сталкивался с такой ошибкой?
проблема в парсинге скорее всего. То что падает на записи говорит о том что парсинг раньше и не начинается (он lazy).
источник

AA

Alibek Amangeldiyev in Data Engineers
Evgeny Kincharov
проблема в парсинге скорее всего. То что падает на записи говорит о том что парсинг раньше и не начинается (он lazy).
Парсинг вот именно отработал и показал df.show() 😀
источник

AZ

Anton Zadorozhniy in Data Engineers
Nick
Добрый день. Сторожилы биг даты, сколько на вашей памяти было максимальное и/или среднее кол-во партиций у ваших больших таблиц в hive? Если помните, то ещё как это влияло на перфоменс работы с такой таблицой
Когда я чинил людям хадупы то постоянно сталкивался с 3-4К партиций в таблице, вроде 10 лет дневных партиций, работает плохо, планирование запросы может очень долго занимать, ещё HS зависал (там прилично проблем в схеме метастора, какие-то не лечатся годами)
источник

AZ

Anton Zadorozhniy in Data Engineers
Хадуп это big data, а много партиций это many data, разные задачи)
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Хадуп это big data, а много партиций это many data, разные задачи)
Прикольно, а можно раскрыть отличия?)
источник

С

Сюткин in Data Engineers
Anton Zadorozhniy
Хадуп это big data, а много партиций это many data, разные задачи)
Давайте меряться количеством и размером файлов за 1 бизнес день
источник

А

Алексей in Data Engineers
положить метастор хайва в другой хайв)  когда метаданные тоже бигдата
источник

NN

No Name in Data Engineers
Nick
Добрый день. Сторожилы биг даты, сколько на вашей памяти было максимальное и/или среднее кол-во партиций у ваших больших таблиц в hive? Если помните, то ещё как это влияло на перфоменс работы с такой таблицой
Я бигдату не сторожил, но сталкивался примерно с около 5к партиций, работало отвратно. Но тут, правда, дело было больше в том, что данные были не оч разложены, но и история была многолетняя.
источник

NN

No Name in Data Engineers
Но вообще partition pruning помогает
источник