Size: a a a

2021 February 03

SK

Sergej Khakhulin in Data Engineers
Alex
Возможно кто-то гдето не докодил
вообщем нет
источник

SK

Sergej Khakhulin in Data Engineers
[2021-02-03 16:49:37] Error running query: org.datanucleus.store.query.QueryNotUniqueException: The query returned more than one instance BUT either unique is set to true or only aggregates are to be returned, so should have returned one result maximum при обращение к таблице из схемы
источник

SK

Sergej Khakhulin in Data Engineers
=> я видимо как то сломал мета стор, теперь вопрос как его починить
источник

KS

K S in Data Engineers
Apache Iceberg это вместо Hive или в дополнение?
источник

KS

K S in Data Engineers
Я посмотрел их сайт, презентации, код и везде идут сравнения с тем насколько это лучше hive.
источник

KS

K S in Data Engineers
Если внедрять айсберг, какой процент функциональности будет замещен, половина?
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Apache Iceberg это вместо Hive или в дополнение?
В дополнение, причём если у вас Hive это основной инструмент для пайплайнов и потребления - сейчас будет больно
источник

KS

K S in Data Engineers
Anton Zadorozhniy
В дополнение, причём если у вас Hive это основной инструмент для пайплайнов и потребления - сейчас будет больно
Понятно, спасибо!
источник

KS

K S in Data Engineers
А почему будет больно?
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
А почему будет больно?
Мало что работает через хайв, надо будет через Спарк или Престо запускать
источник

AZ

Anton Zadorozhniy in Data Engineers
Начнём с того зачем вам айсберг?
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Начнём с того зачем вам айсберг?
Это я и пытаюсь понять, методом научного тыка 😊
источник

KS

K S in Data Engineers
У нас много запросов идёт через Престо.
источник

KS

K S in Data Engineers
Предыдущий владелец даже ETL сделал через Престо.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Это я и пытаюсь понять, методом научного тыка 😊
Так не надо; вы какую проблему решаете?
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Так не надо; вы какую проблему решаете?
Одна из проблем это ETL - в настоящий момент идёт загрузка полных снепшотов базы. Я хочу сделать инкрементал и поэтому начал  рассматривать deltalake, hudi, iceberg. В документации айсберга прочел о недостатках hive metastore и поэтому хотелось бы узнать если одним махом можно решить ещё и медленный HMS.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Одна из проблем это ETL - в настоящий момент идёт загрузка полных снепшотов базы. Я хочу сделать инкрементал и поэтому начал  рассматривать deltalake, hudi, iceberg. В документации айсберга прочел о недостатках hive metastore и поэтому хотелось бы узнать если одним махом можно решить ещё и медленный HMS.
сами по себе ACID форматы вашу проблему не полечат, вам до дельты или айсберга придется наладить забор инкремента из источника, в зависимости от архитектуры у вас может быть еще ряд задач..
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
K S
Одна из проблем это ETL - в настоящий момент идёт загрузка полных снепшотов базы. Я хочу сделать инкрементал и поэтому начал  рассматривать deltalake, hudi, iceberg. В документации айсберга прочел о недостатках hive metastore и поэтому хотелось бы узнать если одним махом можно решить ещё и медленный HMS.
Ощущение, что у вас немного перемешалось все, инкрементальная загрузка никак не влияет от всяких технологий - это просто один из методом/паттерном загрузки данных
источник

NN

No Name in Data Engineers
Vladislav 👻 Shishkov
Ощущение, что у вас немного перемешалось все, инкрементальная загрузка никак не влияет от всяких технологий - это просто один из методом/паттерном загрузки данных
Возможно, коллега хотел бы грузить данные более привычным способом, как в реляционных бд, и, например, не через реализацию scd2, а просто делать update/delete
источник

KS

K S in Data Engineers
Vladislav 👻 Shishkov
Ощущение, что у вас немного перемешалось все, инкрементальная загрузка никак не влияет от всяких технологий - это просто один из методом/паттерном загрузки данных
Да, мое описание довольно таки хаотично, вдобавок моими толстыми пальцами трудно попасть в эти маленькие буковки на телефоне  😁

Идея использования delta lake, Hudi, Iceberg пришла от необходимости периодически  делать backfill. Насколько я понял, эти технологии могут помочь облегчить эти операции. SCD1 когда-то удовлетворял потребности этой компании, когда данных было немного. Теперь дата сет вырос в несколько раз, железо ненадежное, и нарастить его тоже проблематично и долго. Поэтому я решил перевести всё в режим SCD2, или IDL + deltas.
источник