Телеграмм чат группы hadoopusers страница 2109

где эта быстрота? не понимаю...
сейчас буду литературу изучать, может я супер тупой (не отрицаю), но блин...
когда таблица растет (и не такая уж и большая), то все становится как-то значительно медленее

источник

11:31пожаловаться #4

Eldar Nezametdinov in Data Engineers

допустим, не помню таких трабл в ElasticSearch...

источник

11:31пожаловаться #5

Anton Zadorozhniy in Data Engineers

10 тыс в секунду это очень медленно для 40 узлов, смотрите на дизайн ключа, на процесс вставки

источник

11:31пожаловаться #6

Anton Zadorozhniy in Data Engineers

кластер HDFS под hbase выделен, или там кто-то еще резвится?

источник

11:32пожаловаться #7

Eldar Nezametdinov in Data Engineers

read orc, transform, write spark

источник

11:32пожаловаться #8

Anton Zadorozhniy in Data Engineers

так там аналитика также работает на этом кластере?

источник

11:32пожаловаться #9

Eldar Nezametdinov in Data Engineers

кластер очень ненагруженный
есть мастер ноды, есть 40 дата нод.. всего 20++ТБ памяти, с дисками ок, сетка не загружена тоже

источник

11:33пожаловаться #10

Eldar Nezametdinov in Data Engineers

работает, что-то делают на хайвовских таблицах, но это реально понты..

источник

11:33пожаловаться #11

Anton Zadorozhniy in Data Engineers

тут дело не в нагрузке на сеть, дело в задержках дисков под hdfs, если вы много random write разбавляете каким-то количеством sequential read то все будет сильно хуже

источник

11:34пожаловаться #12

Anton Zadorozhniy in Data Engineers

я бы начал с того чтобы посмотреть на процесс вставки: сколько у вас экзекьюторов, какие они показатели дают, потом посмотреть на тот как hbase себя чувствует, идут ли какие компакции процессе вставки, таблица уже заспличена или идут сплиты, какая локальность, а потом смотрел на метрики hdfs

источник

11:36пожаловаться #13

Eldar Nezametdinov in Data Engineers

окей, спасибо👍😊

источник

11:37пожаловаться #14

Anton Zadorozhniy in Data Engineers

если вам нужна высокая стабильная производительность hbase то лучше его разводить с аналитикой на отдельные кластера, в крайнем случае делать трюк со сторадж политикой, когда вся директория /hbase размещена на отдельных дисках

источник

11:38пожаловаться #15

Anton Zadorozhniy in Data Engineers

по моей памяти 2U dual socket машины класса DL380 (12 7200 RPM дисков) в 2011-2012 году спокойно принимала 15-20 тыс операций в секунду на каждый регион сервер

источник

11:39пожаловаться #16

Anton Zadorozhniy in Data Engineers

а вообще лучше ехать в клауд, как известно лучший hbase - это google bigtable

источник

11:44пожаловаться #17

Andrey Smirnov in Data Engineers

Eldar Nezametdinov

я вчера попробовал в таблицу 170мл вставить еще 50млн и не отработало за 1.5ч

как вставляли, batch или по одной записи?

источник

11:51пожаловаться #18