где то видел в блоге датабрикса видео, как челы положили метастор в оракл и надедали матвьюх на онкоммит, а на них еще индексы навесили. И у них работало норм
Давайте меряться количеством и размером файлов за 1 бизнес день
Был у меня клиент, один российский банк, который процесс компакции дневных партиций решил разрабатывать сильно после того как хадуп кластер поехал в продакшен, там был неравный бой с хипом неймноды
Сервисы метаданных в хадуп плохо масштабируются, hdfs namenode и hive metastore не умеют «шардить» свои метаданные
Ну я в курсе про трудности неймноды hdfs с большим количеством файлов (про хайв метастор не знал), но я скорее к тому, что иногда мэни дата является непосредственным следствием биг даты, не будешь же ты партиции 10-гигабайтные делать.
Был у меня клиент, один российский банк, который процесс компакции дневных партиций решил разрабатывать сильно после того как хадуп кластер поехал в продакшен, там был неравный бой с хипом неймноды
где то видел в блоге датабрикса видео, как челы положили метастор в оракл и надедали матвьюх на онкоммит, а на них еще индексы навесили. И у них работало норм
Ну я в курсе про трудности неймноды hdfs с большим количеством файлов (про хайв метастор не знал), но я скорее к тому, что иногда мэни дата является непосредственным следствием биг даты, не будешь же ты партиции 10-гигабайтные делать.
Иногда, а иногда нет, партиции и 1ТБ это нормально, смотря какие объемы и кластер
Иногда, а иногда нет, партиции и 1ТБ это нормально, смотря какие объемы и кластер
Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать
Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать