Size: a a a

2019 July 01

神風 in Data Engineers
Alex
если знаешь алгоритм то почему на создании сразу не создать нужные регионы?
Не знаю.
источник

神風 in Data Engineers
Как распределяются ключи - это отдельные изыскания.
источник

A

Alex in Data Engineers
в плане примерное распределение, на чем-то же оно основано
залили один раз, посмотрел как размазаны
набросал темлпейт для разбивки следующий раз
источник

神風 in Data Engineers
Georgii Kolpakov
Никак, если не указал регионов при создании таблицы, будет просто по ходу записи сплитить. Если для вас запись больших(относительно вашего кластера) регионов - частая(или больная) задача, советую глянуть в сторону предварительной подготовки HFile'ов, так снимите нагрузку с HBase и перенесете её на spark: https://medium.com/hashmapinc/3-steps-for-bulk-loading-1m-records-in-20-seconds-into-apache-phoenix-99b77ad87387
Спасибо, почитаю.
источник

神風 in Data Engineers
Alex
особенно на начале, когда всё влетит в 1 регион
Значит сначала в один, а потом этот один растаскивается по мере появления новых?
источник

A

Alex in Data Engineers
да, у тебя сейчас ситуация:
1 регион, все ломятся в него
hbase решает что надо сплитнуться
делает 2 региона, после деления там еще и компакшен идет, ты в это время сверху пишешь в эти 2 региона

потом опять делятся которые растут и тд
источник

神風 in Data Engineers
Alex
да, у тебя сейчас ситуация:
1 регион, все ломятся в него
hbase решает что надо сплитнуться
делает 2 региона, после деления там еще и компакшен идет, ты в это время сверху пишешь в эти 2 региона

потом опять делятся которые растут и тд
М-да, пипец. Тогда понятно.
источник

A

Alex in Data Engineers
если ключи во входном потоке более менее размазаны, то пресоздав сразу с нужными границами ты размажешь нагрузку сразу же
источник

A

Alex in Data Engineers
иначе выход на более менее равномерную загрузку кластера произойдет совсем не сразу
источник

神風 in Data Engineers
Alex
если ключи во входном потоке более менее размазаны, то пресоздав сразу с нужными границами ты размажешь нагрузку сразу же
То есть я могу создать нужное кол-во регионов и задать для них границы на старте?
источник

A

Alex in Data Engineers
да
источник

神風 in Data Engineers
Ага... Спасибо!!
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
37.7
источник

A

Alex in Data Engineers
ну и вариант что выше было на медиум с балклоадом,
там вообще в чистом виде нету работы с регион серверами

спарк готовит hfiles и заливает их на hdfs
после этого дергает апи чтобы зарегистрировать их в самой hbase table
источник

神風 in Data Engineers
Alex
ну и вариант что выше было на медиум с балклоадом,
там вообще в чистом виде нету работы с регион серверами

спарк готовит hfiles и заливает их на hdfs
после этого дергает апи чтобы зарегистрировать их в самой hbase table
В этом случае придётся самому писать логику, по которой запись попадает в конкретный файл или у спарка есть решения?
источник

A

Alex in Data Engineers
Не использовал, поэтому не скажу
источник

VZ

Vitali Z in Data Engineers
Alex
ну и вариант что выше было на медиум с балклоадом,
там вообще в чистом виде нету работы с регион серверами

спарк готовит hfiles и заливает их на hdfs
после этого дергает апи чтобы зарегистрировать их в самой hbase table
источник

EN

Eldar Nezametdinov in Data Engineers
Есть вопрос по памяти в ярне.
Допустим есть 3 машины по 100гб.
В настройках указывается максимальная память доступаня на ноде 100гб.
Но под приложения будет выделено всего 100? или же все 300????
источник

ЕГ

Евгений Глотов in Data Engineers
300
источник