Телеграмм чат группы hadoopusers страница 3212

16:52пожаловаться #1

SK

Sergej Khakhulin in Data Engineers

[2021-02-03 16:49:37] Error running query: org.datanucleus.store.query.QueryNotUniqueException: The query returned more than one instance BUT either unique is set to true or only aggregates are to be returned, so should have returned one result maximum

при обращение к таблице из схемы

16:52пожаловаться #2

SK

Sergej Khakhulin in Data Engineers

=> я видимо как то сломал мета стор, теперь вопрос как его починить

16:52пожаловаться #3

KS

Apache Iceberg это вместо Hive или в дополнение?

17:21пожаловаться #4

KS

Я посмотрел их сайт, презентации, код и везде идут сравнения с тем насколько это лучше hive.

17:23пожаловаться #5

KS

Если внедрять айсберг, какой процент функциональности будет замещен, половина?

17:25пожаловаться #6

AZ

Apache Iceberg это вместо Hive или в дополнение?

В дополнение, причём если у вас Hive это основной инструмент для пайплайнов и потребления - сейчас будет больно

17:45пожаловаться #7

KS

Anton Zadorozhniy

В дополнение, причём если у вас Hive это основной инструмент для пайплайнов и потребления - сейчас будет больно

Понятно, спасибо!

17:47пожаловаться #8

KS

А почему будет больно?

17:47пожаловаться #9

AZ

А почему будет больно?

Мало что работает через хайв, надо будет через Спарк или Престо запускать

17:50пожаловаться #10

AZ

Начнём с того зачем вам айсберг?

17:50пожаловаться #11

KS

Anton Zadorozhniy

Начнём с того зачем вам айсберг?

Это я и пытаюсь понять, методом научного тыка 😊

17:51пожаловаться #12

KS

У нас много запросов идёт через Престо.

17:53пожаловаться #13

KS

Предыдущий владелец даже ETL сделал через Престо.

17:54пожаловаться #14

AZ

Это я и пытаюсь понять, методом научного тыка 😊

Так не надо; вы какую проблему решаете?

18:01пожаловаться #15

KS

Anton Zadorozhniy

Так не надо; вы какую проблему решаете?

Одна из проблем это ETL - в настоящий момент идёт загрузка полных снепшотов базы. Я хочу сделать инкрементал и поэтому начал рассматривать deltalake, hudi, iceberg. В документации айсберга прочел о недостатках hive metastore и поэтому хотелось бы узнать если одним махом можно решить ещё и медленный HMS.

19:12пожаловаться #16

AZ

Одна из проблем это ETL - в настоящий момент идёт загрузка полных снепшотов базы. Я хочу сделать инкрементал и поэтому начал рассматривать deltalake, hudi, iceberg. В документации айсберга прочел о недостатках hive metastore и поэтому хотелось бы узнать если одним махом можно решить ещё и медленный HMS.

сами по себе ACID форматы вашу проблему не полечат, вам до дельты или айсберга придется наладить забор инкремента из источника, в зависимости от архитектуры у вас может быть еще ряд задач..

Vladislav 👻 Shishkov... in Data Engineers

21:08пожаловаться #17

VS

Одна из проблем это ETL - в настоящий момент идёт загрузка полных снепшотов базы. Я хочу сделать инкрементал и поэтому начал рассматривать deltalake, hudi, iceberg. В документации айсберга прочел о недостатках hive metastore и поэтому хотелось бы узнать если одним махом можно решить ещё и медленный HMS.

Ощущение, что у вас немного перемешалось все, инкрементальная загрузка никак не влияет от всяких технологий - это просто один из методом/паттерном загрузки данных

22:35пожаловаться #18

NN

No Name in Data Engineers

Vladislav 👻 Shishkov

Ощущение, что у вас немного перемешалось все, инкрементальная загрузка никак не влияет от всяких технологий - это просто один из методом/паттерном загрузки данных

Возможно, коллега хотел бы грузить данные более привычным способом, как в реляционных бд, и, например, не через реализацию scd2, а просто делать update/delete

22:50пожаловаться #19

KS

Vladislav 👻 Shishkov

Ощущение, что у вас немного перемешалось все, инкрементальная загрузка никак не влияет от всяких технологий - это просто один из методом/паттерном загрузки данных

Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне 😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.