Size: a a a

2021 October 04

AZ

Anton Zadorozhniy in Data Engineers
Порог входа, маркетинговый бюджет
источник

N

Nikita Blagodarnyy in Data Engineers
А во флинке нет flink-sql? Я прост не трогал ни разу.
источник

A

Alex in Data Engineers
Есть
источник

A

Alex in Data Engineers
Причём с расширением для стриминг даты
источник

A

Alex in Data Engineers
Самая большая часть где в кишках есть scala
Это table модулю
источник

NN

No Name in Data Engineers
Прикольно.
А что ж тогда с входным порогом не так?
источник

A

Alex in Data Engineers
Да все так
источник

A

Alex in Data Engineers
Но апи было раньше у него чуть более low level чем у spark rdd или датафреймов
источник

A

Alex in Data Engineers
Ну и с разворачиванием даже в ярн чуть больше движений и понимания нужно было
источник

A

Alex in Data Engineers
А дальше уже сугубо маркетинг
источник

NN

No Name in Data Engineers
Понял
источник

A

Alex in Data Engineers
https://flink.apache.org/2020/07/28/flink-sql-demo-building-e2e-streaming-application.html

Не было раньше норм коннектора на hive

Так как стриминг в первую очередь делали

Поэтому объявлять таблицы или в коде или в yaml приходилось

В последних версиях активно работали над этим и появилась возможность как hive таблицы гонять. Так и те же таблицы поверх kafka объявлять и хранить их в hive, вся метаинфа в расширенных атрибутах лежит

То есть сейчас идёт скрещивание стрим кафта таблиц и батч таблиц в контексте одного метастора и кода
источник

N

Nikita Blagodarnyy in Data Engineers
источник

NN

No Name in Data Engineers
А звучит то удобно
источник

.

._. in Data Engineers
Добрый день. Подскажите, пожалуйста, когда речь идёт о типах хранилищ данных, обычно имеют в виду модели (виртуальное хранилище, витрины, корпоративное хранилище)?
источник

ДН

Дмитрий Негреев... in Data Engineers
Много это сколько? Из того что видим у себя - минио отторгает такой паттерн)
источник

ES

Evgeny Sanevich in Data Engineers
Ну порядка миллиона наверно. Требование чтобы скейлилось и не зависело от количества файлов. Какой «такой»?)
источник

ДН

Дмитрий Негреев... in Data Engineers
Много мелких файлов. Довольно сильно начинает утилизироваться cpu на нодах. Если правильно помню, он на каждом узле под ногами хранит метаданные, и в этом собственно его проблема)
источник

ES

Evgeny Sanevich in Data Engineers
А хранить ли файлы плоско или по директориям не влияет на производительность ?
источник

K

Kate in Data Engineers
Ребята, привет! Буду рада услышать любые ваши комментарии) помогите 🆘 советом 😊мой вопрос: какие бэст практис по высчитыванию дельт в Hadoop? Есть ли Фреймворки наиболее для этого подходящие ( например delta lake, hudi , iceberg)? Что посоветуете использовать? А возможно стоит вообще отказаться от расчёта дельт?
источник