Телеграмм чат группы hadoopusers страница 3253

Это МРР СУБД которая понимает Spark Dataframe API, по легендам и мифам (на крестах, с векторной обработкой где можно), видимо будет не быстрее спарка, как вы сказали

источник

21:43пожаловаться #11

ЕГ

Евгений Глотов... in Data Engineers

Быстрее, но не экспоненциально, вместо этого например можно докупить нод под спарк в ярне
...если не требуется выполнять запросы быстрее, чем за минуту, тут вот спарк не особо справляется

источник

21:48пожаловаться #12

ЕГ

Евгений Глотов... in Data Engineers

Хотя низкоуровневые оптимизации конечно хорошо

источник

21:49пожаловаться #13

Anton Zadorozhniy in Data Engineers

Евгений Глотов

Что такое «экспоненциально быстрее»?

источник

21:50пожаловаться #14

ЕГ

Евгений Глотов... in Data Engineers

В смысле алгоритмически там то же самое, сложность алгоритма одинаковая, только применены низкоуровневые оптимизации

источник

21:50пожаловаться #15

Anton Zadorozhniy in Data Engineers

Думаю вопрос времени когда они прикрутят к нему и нормальное хранение, вообще неизвестно что у них там в DBIO крутится.. они хотят тягаться со сноуфлейками и редшифтами

источник

22:06пожаловаться #16

ЕГ

Евгений Глотов... in Data Engineers

Anton Zadorozhniy

Спасибо за инфу, может в следующий конкурс на закупку МПП к нам попадёт, в текущий уже вряд ли...)

источник

22:07пожаловаться #17

Anton Zadorozhniy in Data Engineers

Я говорил о самом простом локальном джоине, то что называется co-located join в гринпламе например

источник

22:08пожаловаться #18

Alexander Gorokhov in Data Engineers

Мы щас прод на датабрикс делаем, киллер фича дельты, как по мне - оптимайз, который сжимает и объединяет файлы. Хотя по мимо этого есть много других интересных штук

источник

22:08пожаловаться #19

Alexander Gorokhov in Data Engineers

И апсерты, как я мог забыть об апсертах

источник

22:10пожаловаться #20