Телеграмм чат группы hadoopusers страница 3175

No Name

Прикольно, а можно раскрыть отличия?)

Сервисы метаданных в хадуп плохо масштабируются, hdfs namenode и hive metastore не умеют «шардить» свои метаданные

20:43пожаловаться #1

AZ

Алексей

положить метастор хайва в другой хайв) когда метаданные тоже бигдата

Все так, в хороших системах датакаталог это такая же таблица как все остальные, делится между всеми узлами

20:44пожаловаться #2

А

Алексей in Data Engineers

где то видел в блоге датабрикса видео, как челы положили метастор в оракл и надедали матвьюх на онкоммит, а на них еще индексы навесили. И у них работало норм

20:46пожаловаться #3

AZ

Сюткин

Давайте меряться количеством и размером файлов за 1 бизнес день

Был у меня клиент, один российский банк, который процесс компакции дневных партиций решил разрабатывать сильно после того как хадуп кластер поехал в продакшен, там был неравный бой с хипом неймноды

20:46пожаловаться #4

NN

Сервисы метаданных в хадуп плохо масштабируются, hdfs namenode и hive metastore не умеют «шардить» свои метаданные

Ну я в курсе про трудности неймноды hdfs с большим количеством файлов (про хайв метастор не знал), но я скорее к тому, что иногда мэни дата является непосредственным следствием биг даты, не будешь же ты партиции 10-гигабайтные делать.

20:46пожаловаться #5

С

Сюткин in Data Engineers

Был у меня клиент, один российский банк, который процесс компакции дневных партиций решил разрабатывать сильно после того как хадуп кластер поехал в продакшен, там был неравный бой с хипом неймноды

А разрабы как такой код в прод пустили?

20:47пожаловаться #6

AZ

Сюткин

А разрабы как такой код в прод пустили?

Разрабы отвечали за бизнес логику

20:47пожаловаться #7

С

Сюткин in Data Engineers

Хорошие разрабы и конкурсы интересные

20:47пожаловаться #8

AZ

Это случай «к пуговицам претензии есть? К пуговицам нет, пришиты намертво, хрен оторвёшь»

20:47пожаловаться #9

NN

Алексей

где то видел в блоге датабрикса видео, как челы положили метастор в оракл и надедали матвьюх на онкоммит, а на них еще индексы навесили. И у них работало норм

Вы только что открыли мне новый мир

20:48пожаловаться #10

AZ

No Name

Ну я в курсе про трудности неймноды hdfs с большим количеством файлов (про хайв метастор не знал), но я скорее к тому, что иногда мэни дата является непосредственным следствием биг даты, не будешь же ты партиции 10-гигабайтные делать.

Иногда, а иногда нет, партиции и 1ТБ это нормально, смотря какие объемы и кластер

20:49пожаловаться #11

AZ

Поэтому мы обычно говорим что объём данных и объём номенклатуры это не связанные понятия

20:49пожаловаться #12

NN

Иногда, а иногда нет, партиции и 1ТБ это нормально, смотря какие объемы и кластер

Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать

20:50пожаловаться #13

NN

Поэтому мы обычно говорим что объём данных и объём номенклатуры это не связанные понятия

Это да, без сомнений

20:50пожаловаться #14

AZ

No Name

Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать

Ну не спарком одним аналитика живет

20:51пожаловаться #15

NN

Ну не спарком одним аналитика живет

У меня просто деформация, я два года на нем сижу