Телеграмм чат группы hadoopusers страница 1414

09:30пожаловаться #4

神

神風 in Data Engineers

особенно на начале, когда всё влетит в 1 регион

Значит сначала в один, а потом этот один растаскивается по мере появления новых?

09:31пожаловаться #5

A

да, у тебя сейчас ситуация:
1 регион, все ломятся в него
hbase решает что надо сплитнуться
делает 2 региона, после деления там еще и компакшен идет, ты в это время сверху пишешь в эти 2 региона

потом опять делятся которые растут и тд

09:32пожаловаться #6

神

神風 in Data Engineers

да, у тебя сейчас ситуация:
1 регион, все ломятся в него
hbase решает что надо сплитнуться
делает 2 региона, после деления там еще и компакшен идет, ты в это время сверху пишешь в эти 2 региона

потом опять делятся которые растут и тд

М-да, пипец. Тогда понятно.

09:32пожаловаться #7

A

если ключи во входном потоке более менее размазаны, то пресоздав сразу с нужными границами ты размажешь нагрузку сразу же

09:32пожаловаться #8

A

иначе выход на более менее равномерную загрузку кластера произойдет совсем не сразу

09:33пожаловаться #9

神

神風 in Data Engineers

если ключи во входном потоке более менее размазаны, то пресоздав сразу с нужными границами ты размажешь нагрузку сразу же

То есть я могу создать нужное кол-во регионов и задать для них границы на старте?

09:33пожаловаться #10

A

да

09:33пожаловаться #11

神

神風 in Data Engineers

Ага... Спасибо!!

09:34пожаловаться #12

A

https://hbase.apache.org/book.html#rowkey.design

hbase.apache.org

Apache HBase ™ Reference Guide

09:35пожаловаться #13

A

37.7

09:35пожаловаться #14

A

ну и вариант что выше было на медиум с балклоадом,
там вообще в чистом виде нету работы с регион серверами

спарк готовит hfiles и заливает их на hdfs
после этого дергает апи чтобы зарегистрировать их в самой hbase table

09:36пожаловаться #15

神

神風 in Data Engineers

ну и вариант что выше было на медиум с балклоадом,
там вообще в чистом виде нету работы с регион серверами

спарк готовит hfiles и заливает их на hdfs
после этого дергает апи чтобы зарегистрировать их в самой hbase table

В этом случае придётся самому писать логику, по которой запись попадает в конкретный файл или у спарка есть решения?

09:56пожаловаться #16

A

Не использовал, поэтому не скажу

10:18пожаловаться #17

VZ

Vitali Z in Data Engineers

ну и вариант что выше было на медиум с балклоадом,
там вообще в чистом виде нету работы с регион серверами

спарк готовит hfiles и заливает их на hdfs
после этого дергает апи чтобы зарегистрировать их в самой hbase table

giphy.mp4

(56.34 Кб)

10:55пожаловаться #18

EN

Eldar Nezametdinov in Data Engineers

Есть вопрос по памяти в ярне.
Допустим есть 3 машины по 100гб.
В настройках указывается максимальная память доступаня на ноде 100гб.
Но под приложения будет выделено всего 100? или же все 300????

13:49пожаловаться #19

ЕГ

Евгений Глотов in Data Engineers

300