Телеграмм чат группы hadoopusers страница 4286

https://flink.apache.org/2020/07/28/flink-sql-demo-building-e2e-streaming-application.html

Не было раньше норм коннектора на hive

Так как стриминг в первую очередь делали

Поэтому объявлять таблицы или в коде или в yaml приходилось

В последних версиях активно работали над этим и появилась возможность как hive таблицы гонять. Так и те же таблицы поверх kafka объявлять и хранить их в hive, вся метаинфа в расширенных атрибутах лежит

То есть сейчас идёт скрещивание стрим кафта таблиц и батч таблиц в контексте одного метастора и кода

источник

13:08пожаловаться #12

Nikita Blagodarnyy in Data Engineers

sticker.webp

(35.96 Кб)

источник

13:14пожаловаться #13

No Name in Data Engineers

А звучит то удобно

источник

13:21пожаловаться #14

._. in Data Engineers

Добрый день. Подскажите, пожалуйста, когда речь идёт о типах хранилищ данных, обычно имеют в виду модели (виртуальное хранилище, витрины, корпоративное хранилище)?

источник

15:42пожаловаться #15

ДН

Дмитрий Негреев... in Data Engineers

Много это сколько? Из того что видим у себя - минио отторгает такой паттерн)

источник

15:44пожаловаться #16

Evgeny Sanevich in Data Engineers

Ну порядка миллиона наверно. Требование чтобы скейлилось и не зависело от количества файлов. Какой «такой»?)

источник

15:46пожаловаться #17

ДН

Дмитрий Негреев... in Data Engineers

Много мелких файлов. Довольно сильно начинает утилизироваться cpu на нодах. Если правильно помню, он на каждом узле под ногами хранит метаданные, и в этом собственно его проблема)

источник

15:53пожаловаться #18

Evgeny Sanevich in Data Engineers

А хранить ли файлы плоско или по директориям не влияет на производительность ?

источник

15:55пожаловаться #19

Kate in Data Engineers

Ребята, привет! Буду рада услышать любые ваши комментарии) помогите 🆘 советом 😊мой вопрос: какие бэст практис по высчитыванию дельт в Hadoop? Есть ли Фреймворки наиболее для этого подходящие ( например delta lake, hudi , iceberg)? Что посоветуете использовать? А возможно стоит вообще отказаться от расчёта дельт?

источник

18:44пожаловаться #20