Телеграмм чат группы hadoopusers страница 1385

@barloc
с большим потоком апдейтов сразу же меняйте дефолтные настройки:

- включить мульти wal (по умолчанию пишет в один файл на регионсервер, врубаете файл на регион) (https://www.cloudera.com/documentation/enterprise/5-8-x/topics/admin_configure_multiwal.html )

- если на hdfs настроены разные tier уровни с ssd и без, то указать чтобы wal кидали на ссд https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hbase_wal_storage_policy.html ( Warning: ONE_SSD mode has not been thoroughly tested with HBase and is not recommended. - хоть в доках и написано предупреждение, но УМВР)

- поменять дефолтное значение для минор компакции (3 региона) на что-то более адкеватное, например 10-15. при многих апдейтах не придется по десять раз переливать одно и тоже, а сразу более адекватно собирать будете

- ну и кеши настроить разные, но тут с ходу вот так не вспомню =)

если не сделаете то сразу просядете на записе из-за блокировок на wal
потом hdfs начнете нагибать на почти постоянным компакшеном

Есть же балклоад для заливки большого объёма информации. Работает намного быстрее чем делать пут миллион строк

источник

08:50пожаловаться #7

Alex in Data Engineers

Да, вот только балк насколько помню для заливки в пустую таблицу

источник

08:58пожаловаться #8

Alex in Data Engineers

По крайней мере раньше было

источник

08:58пожаловаться #9

Mironiken in Data Engineers

С год назад грузил балками, но вроде был тот ещё геморрой

источник

09:59пожаловаться #10

Mironiken in Data Engineers

Вообще в hbase очень многое от ключа зависит. Его нужно от задачи подбирать очень хорошо

источник

10:00пожаловаться #11

Buzz in Data Engineers

Alex

Да, вот только балк насколько помню для заливки в пустую таблицу

Нет. У нас объем данных такой, что путами мы будем неделями заливать. Большинство данных у нас грузится балками

источник

10:09пожаловаться #12

2019 June 23

O. Petr in Data Engineers

#spark
Какой самый простой способ сделать, чтобы одинаковые ключи оказались в одних партициях ? И ещё вызов кастом партишинера после сортировки порядок сохранит ?

источник

09:12пожаловаться #13

Dmitry Zuev in Data Engineers

Mapbykey?

источник

09:16пожаловаться #14

2019 June 24

Renarde in Data Engineers

Всем привет. Скажите пожалуйста, кто пользоватся ElastiCache c Redis-backend -какие в нем есть подводные камни по сравнению с обычным Redis Cluster? Может какие-то ограничения, о которых не упомянуто в официальных доках Amazon?

источник

12:32пожаловаться #15

Roman in Data Engineers

Тоже интересен вопрос выше, так как думаю внедрять у себя.

источник

15:01пожаловаться #16

КБ

Константин Белов in Data Engineers

Тут есть девушки, которые занимаются наукой ? и рады будут заняться со мной квантовой физикой и может быть химией, чтобы выиграть соревнование по анализу данных на Kaggle.com ?
предложения в ЛС

источник

21:17пожаловаться #17

Anna Novikova in Data Engineers

Lol

источник

21:19пожаловаться #18

Grigory Pomadchin in Data Engineers

Константин Белов

это спам?

источник

21:20пожаловаться #19

Grigory Pomadchin in Data Engineers

sticker.webp

(3.07 Кб)

источник

21:20пожаловаться #20