Поэтому объявлять таблицы или в коде или в yaml приходилось
В последних версиях активно работали над этим и появилась возможность как hive таблицы гонять. Так и те же таблицы поверх kafka объявлять и хранить их в hive, вся метаинфа в расширенных атрибутах лежит
То есть сейчас идёт скрещивание стрим кафта таблиц и батч таблиц в контексте одного метастора и кода
Добрый день. Подскажите, пожалуйста, когда речь идёт о типах хранилищ данных, обычно имеют в виду модели (виртуальное хранилище, витрины, корпоративное хранилище)?
Много мелких файлов. Довольно сильно начинает утилизироваться cpu на нодах. Если правильно помню, он на каждом узле под ногами хранит метаданные, и в этом собственно его проблема)
Ребята, привет! Буду рада услышать любые ваши комментарии) помогите 🆘 советом 😊мой вопрос: какие бэст практис по высчитыванию дельт в Hadoop? Есть ли Фреймворки наиболее для этого подходящие ( например delta lake, hudi , iceberg)? Что посоветуете использовать? А возможно стоит вообще отказаться от расчёта дельт?