Size: a a a

2021 February 14

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
МРР базы для аналитики
Там точно такой же сортмёрдж джойн, ничего он не быстрее, чем в спарке
источник

ЕГ

Евгений Глотов... in Data Engineers
Мифы и легенды древней архитектуры)
источник

ЕГ

Евгений Глотов... in Data Engineers
Дескать берём МПП за $$$ и всё быстро работает
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
Там точно такой же сортмёрдж джойн, ничего он не быстрее, чем в спарке
Ну данные в этих СУБД часто отсортированы уже, в отличии от..
источник

ЕГ

Евгений Глотов... in Data Engineers
Если всё бакетировано, то будет хорошо, конечно, на паре самых больших таблиц, но этого и в спарке можно добиться
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
Мифы и легенды древней архитектуры)
Видимо надо рассказать это датабрикс, которые пишут свою delta engine по легендам и мифам..
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
Видимо надо рассказать это датабрикс, которые пишут свою delta engine по легендам и мифам..
Ну, с дельталейком поговаривают, что дорогая часть сильно быстрее, чем бесплатная)
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
Ну, с дельталейком поговаривают, что дорогая часть сильно быстрее, чем бесплатная)
Я про дельта лейк ничего не писал
источник

ЕГ

Евгений Глотов... in Data Engineers
А что за дельта энжин?
источник

ЕГ

Евгений Глотов... in Data Engineers
Почитаю🤔
источник

AZ

Anton Zadorozhniy in Data Engineers
Это МРР СУБД которая понимает Spark Dataframe API, по легендам и мифам (на крестах, с векторной обработкой где можно), видимо будет не быстрее спарка, как вы сказали
источник

ЕГ

Евгений Глотов... in Data Engineers
Быстрее, но не экспоненциально, вместо этого например можно докупить нод под спарк в ярне
...если не требуется выполнять запросы быстрее, чем за минуту, тут вот спарк не особо справляется
источник

ЕГ

Евгений Глотов... in Data Engineers
Хотя низкоуровневые оптимизации конечно хорошо
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
Быстрее, но не экспоненциально, вместо этого например можно докупить нод под спарк в ярне
...если не требуется выполнять запросы быстрее, чем за минуту, тут вот спарк не особо справляется
Что такое «экспоненциально быстрее»?
источник

ЕГ

Евгений Глотов... in Data Engineers
В смысле алгоритмически там то же самое, сложность алгоритма одинаковая, только применены низкоуровневые оптимизации
источник

AZ

Anton Zadorozhniy in Data Engineers
Думаю вопрос времени когда они прикрутят к нему и нормальное хранение, вообще неизвестно что у них там в DBIO крутится.. они хотят тягаться со сноуфлейками и редшифтами
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
Думаю вопрос времени когда они прикрутят к нему и нормальное хранение, вообще неизвестно что у них там в DBIO крутится.. они хотят тягаться со сноуфлейками и редшифтами
Спасибо за инфу, может в следующий конкурс на закупку МПП к нам попадёт, в текущий уже вряд ли...)
источник

AZ

Anton Zadorozhniy in Data Engineers
Я говорил о самом простом локальном джоине, то что называется co-located join в гринпламе например
источник

AG

Alexander Gorokhov in Data Engineers
Мы щас прод на датабрикс делаем, киллер фича дельты, как по мне - оптимайз, который сжимает и объединяет файлы. Хотя по мимо этого есть много других интересных штук
источник

AG

Alexander Gorokhov in Data Engineers
И апсерты, как я мог забыть об апсертах
источник