Size: a a a

2021 October 03

ПБ

Повелитель Бури... in Data Engineers
А внедрения сравнения есть? )
источник

ПФ

Паша Финкельштейн... in Data Engineers
Не знаю
источник

NN

No Name in Data Engineers
По нему, кстати, есть интересный цикл статей по внедрению от adobe, рекомендую для дайджеста.
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ты вкидывай ссылку-то!
источник

NN

No Name in Data Engineers
Вкратце - самый продакшн реди вроде как худи, и особенно хорош, если есть много стриминга, ну и вообще есть потребность обеспечить минимальный лаг доставки данных до пользовательских витрин.
Дельта максимально распиарена, удобна, но в опен-сорс варианте большой объем данных не тянет, для этого придется общаться с датабриксом за денежку.
Айсберг создан сразу для бигдаты, чтобы процессить исторические таблицы с большим количеством жирных партиций - там главная (но далеко не единственная) фишка в структуре метакаталогов, которая, в теории, позволяет листинг за константное время производить, а не за линейное, как при использовании, например, хайв метастора, что-то такое.
Но он, вроде как, самый сырой сейчас.
Ну и тестил я лично только айсберг.
источник

NN

No Name in Data Engineers
Ща
источник

NN

No Name in Data Engineers
источник

NN

No Name in Data Engineers
@asm0dey вот это вот только первая из трёх, если не ошибаюсь.
источник

ПФ

Паша Финкельштейн... in Data Engineers
#digest
источник

ПБ

Повелитель Бури... in Data Engineers
Спасибо! Выглядит что счупать надо все 3 технологии
источник

AZ

Anton Zadorozhniy in Data Engineers
Сырость зависит от того кто спрашивает и что конкретно надо; айсберг вполне себе в продакшене у эппла, нетфликса и адоби
источник

NN

No Name in Data Engineers
Да, все так
Я имел в виду, что он вроде как дальше всех от 1.0
источник

T

T in Data Engineers
Я вот тоже худи в итоге взял
источник

NN

No Name in Data Engineers
А ты другие пробовал поднимать? И по каким критериям отобрал худи в итоге?
источник

ДА

Денис Ананьев... in Data Engineers
Худи с точки зрения интерфейса показался не очень удобным. Но наверное для использования прямо здесь и сейчас подходит больше. С айсбергом например сейчас стриминг не особо реализуешь.
Они сейчас работают над нужными им интерфейсами в спарке для merge-on-read и надеются, что это попадет в 3.3.
Кажется, что в айсберге тогда это появится не раньше середины следующего года
источник

ДА

Денис Ананьев... in Data Engineers
С другой стороны в айсберге приятно работать с тайм тревелом и метаданными о снепшотах. Скоро ещё появится возможность тега для бранчей и тогда будет совсем здорово
источник

T

T in Data Engineers
Ну, у меня стриминг апликуха и из за корп стандарта нужен флинк, сложилось в печатление что у флинка сильно лучше с худи интеграция чем с дельтой + худи какие ни какие индексы даёт. Эх жаль что у нас нету бриксового рантайма, был бы взял бы дельту
источник

ПБ

Повелитель Бури... in Data Engineers
Вот меня сейчас смущают фразы: кажется, еще появится. Если учесть, что у этих фреймворков свои форматы и потом перезжать может быть больно
источник

NN

No Name in Data Engineers
Понял, пасиб)
источник

T

T in Data Engineers
Ну и похоже другие отделы тоже выбрали худи. Покрайнемере те с кем я общался
источник