Size: a a a

2021 January 26

AZ

Anton Zadorozhniy in Data Engineers
No Name
Прикольно, а можно раскрыть отличия?)
Сервисы метаданных в хадуп плохо масштабируются, hdfs namenode и hive metastore не умеют «шардить» свои метаданные
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей
положить метастор хайва в другой хайв)  когда метаданные тоже бигдата
Все так, в хороших системах датакаталог это такая же таблица как все остальные, делится между всеми узлами
источник

А

Алексей in Data Engineers
где то видел в блоге датабрикса видео, как челы положили метастор в оракл и надедали матвьюх на онкоммит, а на них еще индексы навесили. И у них работало норм
источник

AZ

Anton Zadorozhniy in Data Engineers
Сюткин
Давайте меряться количеством и размером файлов за 1 бизнес день
Был у меня клиент, один российский банк, который процесс компакции дневных партиций решил разрабатывать сильно после того как хадуп кластер поехал в продакшен, там был неравный бой с хипом неймноды
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Сервисы метаданных в хадуп плохо масштабируются, hdfs namenode и hive metastore не умеют «шардить» свои метаданные
Ну я в курсе про трудности неймноды hdfs с большим количеством файлов (про хайв метастор не знал), но я скорее к тому, что иногда мэни дата является непосредственным следствием биг даты, не будешь же ты партиции 10-гигабайтные делать.
источник

С

Сюткин in Data Engineers
Anton Zadorozhniy
Был у меня клиент, один российский банк, который процесс компакции дневных партиций решил разрабатывать сильно после того как хадуп кластер поехал в продакшен, там был неравный бой с хипом неймноды
А разрабы как такой код в прод пустили?
источник

AZ

Anton Zadorozhniy in Data Engineers
Сюткин
А разрабы как такой код в прод пустили?
Разрабы отвечали за бизнес логику
источник

С

Сюткин in Data Engineers
Хорошие разрабы и конкурсы интересные
источник

AZ

Anton Zadorozhniy in Data Engineers
Это случай «к пуговицам претензии есть? К пуговицам нет, пришиты намертво, хрен оторвёшь»
источник

NN

No Name in Data Engineers
Алексей
где то видел в блоге датабрикса видео, как челы положили метастор в оракл и надедали матвьюх на онкоммит, а на них еще индексы навесили. И у них работало норм
Вы только что открыли мне новый мир
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
Ну я в курсе про трудности неймноды hdfs с большим количеством файлов (про хайв метастор не знал), но я скорее к тому, что иногда мэни дата является непосредственным следствием биг даты, не будешь же ты партиции 10-гигабайтные делать.
Иногда, а иногда нет, партиции и 1ТБ это нормально, смотря какие объемы и кластер
источник

AZ

Anton Zadorozhniy in Data Engineers
Поэтому мы обычно говорим что объём данных и объём номенклатуры это не связанные понятия
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Иногда, а иногда нет, партиции и 1ТБ это нормально, смотря какие объемы и кластер
Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Поэтому мы обычно говорим что объём данных и объём номенклатуры это не связанные понятия
Это да, без сомнений
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать
Ну не спарком одним аналитика живет
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Ну не спарком одним аналитика живет
У меня просто деформация, я два года на нем сижу
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Сервисы метаданных в хадуп плохо масштабируются, hdfs namenode и hive metastore не умеют «шардить» свои метаданные
а federated hdfs как же?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
а federated hdfs как же?
Это костыль все-таки, не всем подходит
источник

N

Nick in Data Engineers
Всем спасибо за ответы
источник

N

Nick in Data Engineers
Alibek Amangeldiyev
Парсинг вот именно отработал и показал df.show() 😀
А данные там есть или только заголовки показал? + для каждого столбца должен быть определён тип
источник