Size: a a a

2021 January 22

AZ

Anton Zadorozhniy in Data Engineers
Renarde
усе работает, не понимаю в чем вопрос.

аргумент про вендор лок мне тоже непонятен - есть OSS дельта, у нее отличия в основном по функционалу типа optimize etc.
Структурно выглядят файлы так же, протокол коммитов тоже OSS, недавно и нативные клиенты опенсорснули - https://github.com/delta-io/delta-rs

либо у меня в голове какое-то иное понимание выражения "вендор лок".
без DBIO очень дорого массивные таблицы читать и писать, очень большой операционный оверхед на компакции
источник

R

Renarde in Data Engineers
Alex
Раньше вы с голым s3 не работали, из-за eventual consistency

Вернее датабрикс реализация работала, OSS требовал s3guard

Вот и спросил нужно ли его сейчас или уже просто на s3 и OSS версия работат
так в сам s3 же гарантии завезли с недавнего времени (но я не смотрел какие). плюс насколько я понимаю у hudi будут ровно те же проблемы - underlying storage то такой же.
но тут не уверен точно - если не прав, поправьте
источник

A

Alex in Data Engineers
Да, подвезли, поэтому и спросил :) мало ли у вас там отдельные проверки какие
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
без DBIO очень дорого массивные таблицы читать и писать, очень большой операционный оверхед на компакции
DBIO действительно наш edge компонент которого нет в OSS delta, только не очень понимаю какой аналог есть у OSS hudi?
источник

AZ

Anton Zadorozhniy in Data Engineers
у худи много тех же проблем что и дельты, но меньше операционный оверхед (компакции, клининг)
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
DBIO действительно наш edge компонент которого нет в OSS delta, только не очень понимаю какой аналог есть у OSS hudi?
источник

K

Kate in Data Engineers
Ребята, привет! Подскажите, пжс, какая рекомендуемая ширина канала должна быть от свиста до нэйм нод в cloudera? Не нашла в документации Cloudera
источник

AZ

Anton Zadorozhniy in Data Engineers
лучше всего будет конечно в айсберге, где метаданные хранятся в базе и не надо тыкать S3 каждый раз чтобы узнать какие там файлы в партиции есть
источник

R

Renarde in Data Engineers
о, прикольная штука. ну это не совсем == DBIO по функционалу, тут ты прав, но определенно в пользу OSS Hudi
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
лучше всего будет конечно в айсберге, где метаданные хранятся в базе и не надо тыкать S3 каждый раз чтобы узнать какие там файлы в партиции есть
мне помнится какой-то из форматов давал возможность запилить полноценные индексы и хранить их в прицепляемом k-v хранилище по типу HBase
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
о, прикольная штука. ну это не совсем == DBIO по функционалу, тут ты прав, но определенно в пользу OSS Hudi
OPTIMIZE бежит разве не через DBIO? прям честный спарк джоб на кластере?
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
OPTIMIZE бежит разве не через DBIO? прям честный спарк джоб на кластере?
можно выключить DBIO и OPTIMIZE будет работать
источник

KS

K S in Data Engineers
Renarde
мне помнится какой-то из форматов давал возможность запилить полноценные индексы и хранить их в прицепляемом k-v хранилище по типу HBase
Это интересно, то есть можно индексы хранить в dynamodb?
источник

R

Renarde in Data Engineers
K S
Это интересно, то есть можно индексы хранить в dynamodb?
да, именно так. но вот какой из трех озвученных форматов такое умеет - я не могу найти
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
можно выключить DBIO и OPTIMIZE будет работать
интересно.. я не прав конечно, я просто называю DBIO всю вашу проприетарщину, которая стоит между данными в объектном сторадже и  бизнес-логикой клиента в спарке
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
лучше всего будет конечно в айсберге, где метаданные хранятся в базе и не надо тыкать S3 каждый раз чтобы узнать какие там файлы в партиции есть
а айсберг не поддерживает Glue - https://github.com/apache/iceberg/issues/932
не уверен что это лучшая рекомендация для AWS-based компании 🙂
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
а айсберг не поддерживает Glue - https://github.com/apache/iceberg/issues/932
не уверен что это лучшая рекомендация для AWS-based компании 🙂
я никому пока не рекомендовал, я написал что будет :)
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

KS

K S in Data Engineers
Renarde
да, именно так. но вот какой из трех озвученных форматов такое умеет - я не могу найти
Возможно вот это?
источник

KS

K S in Data Engineers
Это я на сайте вашей компании нашёл 😊
https://databricks.com/session_na20/a-thorough-comparison-of-delta-lake-iceberg-and-hudi
источник