Size: a a a

2021 January 22

KS

K S in Data Engineers
У нас в проекте есть консультанты по AWS, которые предлагают hudi вместо delta lake. Интересно узнать мнение тех, кто имел дело с обоими форматами.
источник

A

Alex in Data Engineers
До недавнего времени s3 не поддерживался без s3guard, так как отсутствовал атомарный rename

Сейчас может и полетит
источник

AS

Andrey Smirnov in Data Engineers
K S
У нас в проекте есть консультанты по AWS, которые предлагают hudi вместо delta lake. Интересно узнать мнение тех, кто имел дело с обоими форматами.
логично,  hudi  все деньги им, delta lake основную часть заберет датабрикс :)
источник

A

Alex in Data Engineers
@renardeinside может больше скажет по текущему состоянию s3 и дельты
источник

KS

K S in Data Engineers
Alex
До недавнего времени s3 не поддерживался без s3guard, так как отсутствовал атомарный rename

Сейчас может и полетит
Это из-за того, что в S3 завезли strong consistency?
источник

A

Alex in Data Engineers
Да
источник

KS

K S in Data Engineers
Andrey Smirnov
логично,  hudi  все деньги им, delta lake основную часть заберет датабрикс :)
То то я думаю, чего они delta lake игнорят. Когда я заикнулся про vendor lockin, они совсем загрустили.
источник

KS

K S in Data Engineers
Не уверены типа, что glue сможет поддерживать delta lake.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
То то я думаю, чего они delta lake игнорят. Когда я заикнулся про vendor lockin, они совсем загрустили.
можно подсластить тем фактом что данные если все равно можно прочитать, если что, но я тоже грустил бы, все так
источник

A

Alex in Data Engineers
K S
То то я думаю, чего они delta lake игнорят. Когда я заикнулся про vendor lockin, они совсем загрустили.
А дельта лейк это не вендор локинг?
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
А дельта лейк это не вендор локинг?
это он и есть
источник

A

Alex in Data Engineers
Но ведь есть же опенсорс дельта
источник

A

Alex in Data Engineers
(шутка)
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Но ведь есть же опенсорс дельта
толсто
источник

A

Alex in Data Engineers
в EMR hudi из коробки идет, так что если работать с AWS то худи не такой и плохой вариант. Сам думаю его скоро прикручивать именно из-за "из коробки"
источник

A

Alex in Data Engineers
Anton Zadorozhniy
толсто
Ну человек так понимаю хочет опенсорс дельту гонять
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Ну человек так понимаю хочет опенсорс дельту гонять
думаю человек быстро разберется что к чему
источник

R

Renarde in Data Engineers
Alex
@renardeinside может больше скажет по текущему состоянию s3 и дельты
усе работает, не понимаю в чем вопрос.

аргумент про вендор лок мне тоже непонятен - есть OSS дельта, у нее отличия в основном по функционалу типа optimize etc.
Структурно выглядят файлы так же, протокол коммитов тоже OSS, недавно и нативные клиенты опенсорснули - https://github.com/delta-io/delta-rs

либо у меня в голове какое-то иное понимание выражения "вендор лок".
источник

A

Alex in Data Engineers
Renarde
усе работает, не понимаю в чем вопрос.

аргумент про вендор лок мне тоже непонятен - есть OSS дельта, у нее отличия в основном по функционалу типа optimize etc.
Структурно выглядят файлы так же, протокол коммитов тоже OSS, недавно и нативные клиенты опенсорснули - https://github.com/delta-io/delta-rs

либо у меня в голове какое-то иное понимание выражения "вендор лок".
Раньше вы с голым s3 не работали, из-за eventual consistency

Вернее датабрикс реализация работала, OSS требовал s3guard

Вот и спросил нужно ли его сейчас или уже просто на s3 и OSS версия работат
источник

АЖ

Андрей Жуков... in Data Engineers
А oss разве не stub по сути?
источник