Size: a a a

2021 January 22

R

Renarde in Data Engineers
K S
Возможно вот это?
источник

R

Renarde in Data Engineers
но я почему-то думал что там не HBase а dynamo можно
hbase звучит уже кисленько - это поддерживать надо и тд
источник

AZ

Anton Zadorozhniy in Data Engineers
если кого волнует поддержка Apache Iceberg в AWS - надо чуть-чуть подождать, поддержка Glue будет в Iceberg 0.11 (видимо февраль), DynamoDB для локов там же, шифрования и пачка воркараундов для ускорения, большая часть этого всего уже в мастере и можно посмотреть.. Athena будет поддерживать их как только 0.11 зарелизят тож https://github.com/apache/iceberg/blob/master/site/docs/aws.md
источник

AZ

Anton Zadorozhniy in Data Engineers
это реализация без вендор локин - можно читать и писать данные из любого компьюта (амазоновский, ванильный, датабрикс) с одинаковой производительностью, данные лежат в открытом формате, метаданные доступны через открытый АПИ
источник

KS

K S in Data Engineers
Anton Zadorozhniy
это реализация без вендор локин - можно читать и писать данные из любого компьюта (амазоновский, ванильный, датабрикс) с одинаковой производительностью, данные лежат в открытом формате, метаданные доступны через открытый АПИ
Класс!
Очень продуктивная дискуссия. Спасибо большое, Антону и всем участникам беседы!
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Класс!
Очень продуктивная дискуссия. Спасибо большое, Антону и всем участникам беседы!
Вы только все равно сделайте анализ, айсберг все ещё очень barebones фреймворк, мб вам по другим причинам не подойдёт
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
это реализация без вендор локин - можно читать и писать данные из любого компьюта (амазоновский, ванильный, датабрикс) с одинаковой производительностью, данные лежат в открытом формате, метаданные доступны через открытый АПИ
возвращаясь к теме определения "без вендор локин" :
- можно читать и писать данные из любого компьюта
- данные лежат в открытом формате
- метаданные доступны через открытый АПИ

по всем этим параметрам дельта проходит 🤷

понятное дело что в проприетарной версии производительность лучше - кушать всем хочется
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
возвращаясь к теме определения "без вендор локин" :
- можно читать и писать данные из любого компьюта
- данные лежат в открытом формате
- метаданные доступны через открытый АПИ

по всем этим параметрам дельта проходит 🤷

понятное дело что в проприетарной версии производительность лучше - кушать всем хочется
А где в дельте АПИ по статистике?
источник

AZ

Anton Zadorozhniy in Data Engineers
Грубо говоря если для дельты будет открытая реализация датакаталога, в котором лежат локации файлов, статистика, сама схема; а не стаб как сейчас, который ходит в объектный сторадж на каждый чих - тогда да, дельта ничем не отличается от айсберга
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
Грубо говоря если для дельты будет открытая реализация датакаталога, в котором лежат локации файлов, статистика, сама схема; а не стаб как сейчас, который ходит в объектный сторадж на каждый чих - тогда да, дельта ничем не отличается от айсберга
еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?
источник

D

Dmitry in Data Engineers
Anton Zadorozhniy
Грубо говоря если для дельты будет открытая реализация датакаталога, в котором лежат локации файлов, статистика, сама схема; а не стаб как сейчас, который ходит в объектный сторадж на каждый чих - тогда да, дельта ничем не отличается от айсберга
так это же всю прелесть убьет. сейчас можно скоприровать папочку к себе на ноутбук, запустить джоб на локальной папочке. а с датакаталогом начнется ....
источник

A

Alex in Data Engineers
Renarde
еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?
претензии больше:

- OSS как-то работает?
- да

- можно ли тянуть это в прод?
- OSS под вопросом, так как в эффективности она проигрывает некоторым другим форматам

- как сделать чтобы работало эффективно?
- взять проприетарную версию

то есть de jure она oss
но на практике ….
источник

N

Nikita Blagodarnyy in Data Engineers
По опыту дельта осс в разы медленнее, чем худи.
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?
Смотря для кого, для айти гиганта врядли, он просто допишет для себя нужные части чтобы ускорить нужные шаги read path, но для компании основной профиль которой не дата менеджмент их единственный выход - переходить на датабрикс (на он-преме даже железо будет бесполезно покупать, упрутся в неймноду)

Вот если будет ещё какой-то провайдер крутого Спарк окружения который поддерживает дельта лейк- тогда точно не вендор лок
источник

D

Dmitry in Data Engineers
кстати вопрос, если OSS дельта на HDFS, а не на тормозном облачном хранилище, это сильно помогает?
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry
кстати вопрос, если OSS дельта на HDFS, а не на тормозном облачном хранилище, это сильно помогает?
На небольшом масштабе - да, если запланирован большой рост - будет сильно мешать
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
претензии больше:

- OSS как-то работает?
- да

- можно ли тянуть это в прод?
- OSS под вопросом, так как в эффективности она проигрывает некоторым другим форматам

- как сделать чтобы работало эффективно?
- взять проприетарную версию

то есть de jure она oss
но на практике ….
this

Чтобы дельта не была вендор локом датабриксу надо создать конкурента себе, как Интел «создал» АМД (хехе)
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
еще раз - я же не сравниваю OSS дельту и Iceberg.

Я выступаю против аргумента про вендор-лок. От того что OSS дельта ходит за статистикой в объектный сторадж она не становится вендор-локом, верно?
вспомнил пример аналогичный Delta OSS: есть такая СУБД для метрик, InfluxDB, она в свободной версии не поддерживает кластеризацию и хочет за это денег.. Будет ли использование InfluxDB Open Source вендор локом?
источник

R

Roman in Data Engineers
Anton Zadorozhniy
вспомнил пример аналогичный Delta OSS: есть такая СУБД для метрик, InfluxDB, она в свободной версии не поддерживает кластеризацию и хочет за это денег.. Будет ли использование InfluxDB Open Source вендор локом?
Как то раз выбирал бд для метрик, и Influx была топ, но из - за как раз этого ограничения и не выбрал её) там, вроде бы, ещё ряд ограничений были, что суммарно приводило к тому, что в опенсорс версии нагрузка либо на масштабировалась, либо какие - то другие траблы были с этим. Но это было года 4назад.
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
вспомнил пример аналогичный Delta OSS: есть такая СУБД для метрик, InfluxDB, она в свободной версии не поддерживает кластеризацию и хочет за это денег.. Будет ли использование InfluxDB Open Source вендор локом?
секундочку, но этот пример то совершенно не аналогичный. Это критическая разница в функционале/надежности (кластеризация).

с дельтой - да, есть разница в производительности, и возможно она проигрывает другим форматам в этом аспекте. но это же не означает что она совершенно не работает, верно?

имхо - вендор лок это когда решение НЕ работает без вендора вообще и/или функционал урезается так, что использовать это никоим образом нельзя (например - данные нельзя прочитать без вендора). Когда оно работает "не так производительно как другие аналогичные OSS решения" - это не вендор лок.
источник