Телеграмм чат группы hadoopusers страница 3160

если кого волнует поддержка Apache Iceberg в AWS - надо чуть-чуть подождать, поддержка Glue будет в Iceberg 0.11 (видимо февраль), DynamoDB для локов там же, шифрования и пачка воркараундов для ускорения, большая часть этого всего уже в мастере и можно посмотреть.. Athena будет поддерживать их как только 0.11 зарелизят тож https://github.com/apache/iceberg/blob/master/site/docs/aws.md

источник

13:01пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

это реализация без вендор локин - можно читать и писать данные из любого компьюта (амазоновский, ванильный, датабрикс) с одинаковой производительностью, данные лежат в открытом формате, метаданные доступны через открытый АПИ

источник

13:09пожаловаться #4

KS

K S in Data Engineers

Anton Zadorozhniy

это реализация без вендор локин - можно читать и писать данные из любого компьюта (амазоновский, ванильный, датабрикс) с одинаковой производительностью, данные лежат в открытом формате, метаданные доступны через открытый АПИ

Класс!
Очень продуктивная дискуссия. Спасибо большое, Антону и всем участникам беседы!

источник

13:12пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

K S

Класс!
Очень продуктивная дискуссия. Спасибо большое, Антону и всем участникам беседы!

Вы только все равно сделайте анализ, айсберг все ещё очень barebones фреймворк, мб вам по другим причинам не подойдёт

источник

13:20пожаловаться #6

R

Renarde in Data Engineers

Anton Zadorozhniy

это реализация без вендор локин - можно читать и писать данные из любого компьюта (амазоновский, ванильный, датабрикс) с одинаковой производительностью, данные лежат в открытом формате, метаданные доступны через открытый АПИ

возвращаясь к теме определения "без вендор локин" :
- можно читать и писать данные из любого компьюта
- данные лежат в открытом формате
- метаданные доступны через открытый АПИ

по всем этим параметрам дельта проходит 🤷

понятное дело что в проприетарной версии производительность лучше - кушать всем хочется

источник

13:20пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Renarde

возвращаясь к теме определения "без вендор локин" :
- можно читать и писать данные из любого компьюта
- данные лежат в открытом формате
- метаданные доступны через открытый АПИ

по всем этим параметрам дельта проходит 🤷

понятное дело что в проприетарной версии производительность лучше - кушать всем хочется

А где в дельте АПИ по статистике?

источник

13:21пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Грубо говоря если для дельты будет открытая реализация датакаталога, в котором лежат локации файлов, статистика, сама схема; а не стаб как сейчас, который ходит в объектный сторадж на каждый чих - тогда да, дельта ничем не отличается от айсберга

источник

13:24пожаловаться #9

R

Renarde in Data Engineers

Anton Zadorozhniy

Грубо говоря если для дельты будет открытая реализация датакаталога, в котором лежат локации файлов, статистика, сама схема; а не стаб как сейчас, который ходит в объектный сторадж на каждый чих - тогда да, дельта ничем не отличается от айсберга

еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?

источник

13:27пожаловаться #10

D

Dmitry in Data Engineers

Anton Zadorozhniy

Грубо говоря если для дельты будет открытая реализация датакаталога, в котором лежат локации файлов, статистика, сама схема; а не стаб как сейчас, который ходит в объектный сторадж на каждый чих - тогда да, дельта ничем не отличается от айсберга

так это же всю прелесть убьет. сейчас можно скоприровать папочку к себе на ноутбук, запустить джоб на локальной папочке. а с датакаталогом начнется ....

источник

13:27пожаловаться #11

A

Alex in Data Engineers

Renarde

еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?

претензии больше:

- OSS как-то работает?
- да

- можно ли тянуть это в прод?
- OSS под вопросом, так как в эффективности она проигрывает некоторым другим форматам

- как сделать чтобы работало эффективно?
- взять проприетарную версию

то есть de jure она oss
но на практике ….

источник

13:30пожаловаться #12

N

Nikita Blagodarnyy in Data Engineers

По опыту дельта осс в разы медленнее, чем худи.

источник

13:31пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Renarde

еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?

Смотря для кого, для айти гиганта врядли, он просто допишет для себя нужные части чтобы ускорить нужные шаги read path, но для компании основной профиль которой не дата менеджмент их единственный выход - переходить на датабрикс (на он-преме даже железо будет бесполезно покупать, упрутся в неймноду)

Вот если будет ещё какой-то провайдер крутого Спарк окружения который поддерживает дельта лейк- тогда точно не вендор лок

источник

13:33пожаловаться #14

D

Dmitry in Data Engineers

кстати вопрос, если OSS дельта на HDFS, а не на тормозном облачном хранилище, это сильно помогает?

источник

13:34пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Dmitry

кстати вопрос, если OSS дельта на HDFS, а не на тормозном облачном хранилище, это сильно помогает?

На небольшом масштабе - да, если запланирован большой рост - будет сильно мешать

источник

13:36пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Alex

претензии больше:

- OSS как-то работает?
- да

- можно ли тянуть это в прод?
- OSS под вопросом, так как в эффективности она проигрывает некоторым другим форматам

- как сделать чтобы работало эффективно?
- взять проприетарную версию

то есть de jure она oss
но на практике ….

this

Чтобы дельта не была вендор локом датабриксу надо создать конкурента себе, как Интел «создал» АМД (хехе)

источник

13:37пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Renarde

еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?

вспомнил пример аналогичный Delta OSS: есть такая СУБД для метрик, InfluxDB, она в свободной версии не поддерживает кластеризацию и хочет за это денег.. Будет ли использование InfluxDB Open Source вендор локом?

источник

15:30пожаловаться #18

R

Roman in Data Engineers

Anton Zadorozhniy

вспомнил пример аналогичный Delta OSS: есть такая СУБД для метрик, InfluxDB, она в свободной версии не поддерживает кластеризацию и хочет за это денег.. Будет ли использование InfluxDB Open Source вендор локом?

Как то раз выбирал бд для метрик, и Influx была топ, но из - за как раз этого ограничения и не выбрал её) там, вроде бы, ещё ряд ограничений были, что суммарно приводило к тому, что в опенсорс версии нагрузка либо на масштабировалась, либо какие - то другие траблы были с этим. Но это было года 4назад.

источник

15:41пожаловаться #19

R

Renarde in Data Engineers

Anton Zadorozhniy

вспомнил пример аналогичный Delta OSS: есть такая СУБД для метрик, InfluxDB, она в свободной версии не поддерживает кластеризацию и хочет за это денег.. Будет ли использование InfluxDB Open Source вендор локом?

секундочку, но этот пример то совершенно не аналогичный. Это критическая разница в функционале/надежности (кластеризация).

с дельтой - да, есть разница в производительности, и возможно она проигрывает другим форматам в этом аспекте. но это же не означает что она совершенно не работает, верно?

имхо - вендор лок это когда решение НЕ работает без вендора вообще и/или функционал урезается так, что использовать это никоим образом нельзя (например - данные нельзя прочитать без вендора). Когда оно работает "не так производительно как другие аналогичные OSS решения" - это не вендор лок.

источник

15:49пожаловаться #20