Телеграмм чат группы hadoopusers страница 3159

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2229 membersпожаловаться на группу

2021 January 22

AZ

Anton Zadorozhniy in Data Engineers

усе работает, не понимаю в чем вопрос.

аргумент про вендор лок мне тоже непонятен - есть OSS дельта, у нее отличия в основном по функционалу типа optimize etc.
Структурно выглядят файлы так же, протокол коммитов тоже OSS, недавно и нативные клиенты опенсорснули - https://github.com/delta-io/delta-rs

либо у меня в голове какое-то иное понимание выражения "вендор лок".

delta-io/delta-rs

A native Rust library for Delta Lake, with bindings into Python and Ruby. - delta-io/delta-rs

без DBIO очень дорого массивные таблицы читать и писать, очень большой операционный оверхед на компакции

источник

12:20пожаловаться #1

R

Renarde in Data Engineers

Раньше вы с голым s3 не работали, из-за eventual consistency

Вернее датабрикс реализация работала, OSS требовал s3guard

Вот и спросил нужно ли его сейчас или уже просто на s3 и OSS версия работат

так в сам s3 же гарантии завезли с недавнего времени (но я не смотрел какие). плюс насколько я понимаю у hudi будут ровно те же проблемы - underlying storage то такой же.
но тут не уверен точно - если не прав, поправьте

источник

12:22пожаловаться #2

A

Alex in Data Engineers

Да, подвезли, поэтому и спросил :) мало ли у вас там отдельные проверки какие

источник

12:23пожаловаться #3

R

Renarde in Data Engineers

Anton Zadorozhniy

без DBIO очень дорого массивные таблицы читать и писать, очень большой операционный оверхед на компакции

DBIO действительно наш edge компонент которого нет в OSS delta, только не очень понимаю какой аналог есть у OSS hudi?

источник

12:27пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

у худи много тех же проблем что и дельты, но меньше операционный оверхед (компакции, клининг)

источник

12:28пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

DBIO действительно наш edge компонент которого нет в OSS delta, только не очень понимаю какой аналог есть у OSS hudi?

https://hudi.apache.org/docs/configurations.html#compaction-configs

hudi.apache.org

Configurations

This page covers the different ways of configuring your job to write/read Hudi tables. At a high level, you can control behaviour at few levels.

источник

12:29пожаловаться #6

K

Kate in Data Engineers

Ребята, привет! Подскажите, пжс, какая рекомендуемая ширина канала должна быть от свиста до нэйм нод в cloudera? Не нашла в документации Cloudera

источник

12:29пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

лучше всего будет конечно в айсберге, где метаданные хранятся в базе и не надо тыкать S3 каждый раз чтобы узнать какие там файлы в партиции есть

источник

12:30пожаловаться #8

R

Renarde in Data Engineers

Anton Zadorozhniy

https://hudi.apache.org/docs/configurations.html#compaction-configs

hudi.apache.org

Configurations

This page covers the different ways of configuring your job to write/read Hudi tables. At a high level, you can control behaviour at few levels.

о, прикольная штука. ну это не совсем == DBIO по функционалу, тут ты прав, но определенно в пользу OSS Hudi

источник

12:39пожаловаться #9

R

Renarde in Data Engineers

Anton Zadorozhniy

лучше всего будет конечно в айсберге, где метаданные хранятся в базе и не надо тыкать S3 каждый раз чтобы узнать какие там файлы в партиции есть

мне помнится какой-то из форматов давал возможность запилить полноценные индексы и хранить их в прицепляемом k-v хранилище по типу HBase

источник

12:40пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

о, прикольная штука. ну это не совсем == DBIO по функционалу, тут ты прав, но определенно в пользу OSS Hudi

OPTIMIZE бежит разве не через DBIO? прям честный спарк джоб на кластере?

источник

12:40пожаловаться #11

R

Renarde in Data Engineers

Anton Zadorozhniy

OPTIMIZE бежит разве не через DBIO? прям честный спарк джоб на кластере?

можно выключить DBIO и OPTIMIZE будет работать

источник

12:40пожаловаться #12

KS

K S in Data Engineers

мне помнится какой-то из форматов давал возможность запилить полноценные индексы и хранить их в прицепляемом k-v хранилище по типу HBase

Это интересно, то есть можно индексы хранить в dynamodb?

источник

12:42пожаловаться #13

R

Renarde in Data Engineers

Это интересно, то есть можно индексы хранить в dynamodb?

да, именно так. но вот какой из трех озвученных форматов такое умеет - я не могу найти

источник

12:44пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

можно выключить DBIO и OPTIMIZE будет работать

интересно.. я не прав конечно, я просто называю DBIO всю вашу проприетарщину, которая стоит между данными в объектном сторадже и бизнес-логикой клиента в спарке

источник

12:44пожаловаться #15

R

Renarde in Data Engineers

Anton Zadorozhniy

лучше всего будет конечно в айсберге, где метаданные хранятся в базе и не надо тыкать S3 каждый раз чтобы узнать какие там файлы в партиции есть

а айсберг не поддерживает Glue - https://github.com/apache/iceberg/issues/932
не уверен что это лучшая рекомендация для AWS-based компании 🙂

Support for AWS Glue as an alternative Hive metastore implementation · Issue #932 · apache/iceberg

It is an old issue from Netflix/iceberg#112. Do we have any plan/progress on this?

источник

12:45пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

а айсберг не поддерживает Glue - https://github.com/apache/iceberg/issues/932
не уверен что это лучшая рекомендация для AWS-based компании 🙂

Support for AWS Glue as an alternative Hive metastore implementation · Issue #932 · apache/iceberg

It is an old issue from Netflix/iceberg#112. Do we have any plan/progress on this?

я никому пока не рекомендовал, я написал что будет :)

источник

12:45пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

https://github.com/apache/iceberg/issues/1766#issuecomment-726927551

Reading iceberg table using Amazon Athena · Issue #1766 · apache/iceberg

is it possible to read iceberg table using Amazon Athena, will that be possible after "AWS Glue catalog and table operations" #1633 ?

источник

12:47пожаловаться #18

KS

K S in Data Engineers

да, именно так. но вот какой из трех озвученных форматов такое умеет - я не могу найти

Возможно вот это?

источник

12:47пожаловаться #19

KS

K S in Data Engineers

Это я на сайте вашей компании нашёл 😊
https://databricks.com/session_na20/a-thorough-comparison-of-delta-lake-iceberg-and-hudi

A Thorough Comparison of Delta Lake, Iceberg and Hudi - Databricks

A Thorough Comparison of Delta Lake, Iceberg and Hudi at 2020 Spark + AI Summit presented by Junjie Chen, Junping Du

источник

12:48пожаловаться #20