Size: a a a

2019 June 21

AP

Alexander Piminov in Data Engineers
Dumitru Preguza
что делать если use-case такой что нужно обновлять записи по id ?
Не использовать Hive🙂
источник

DP

Dumitru Preguza in Data Engineers
Alexander Piminov
Не использовать Hive🙂
да нет, надо использовать
источник

DP

Dumitru Preguza in Data Engineers
Alexander Piminov
Не использовать Hive🙂
в документации так
источник

S

Stanislav in Data Engineers
ну надо, так надо )
источник
2019 June 22

V

Vijay in Data Engineers
Hi
источник

V

Vijay in Data Engineers
Can yu suggest free data engineer courses??
источник

B

Buzz in Data Engineers
Alex
@barloc
с большим потоком апдейтов сразу же меняйте дефолтные настройки:

- включить мульти wal (по умолчанию пишет в один файл на регионсервер, врубаете файл на регион) (https://www.cloudera.com/documentation/enterprise/5-8-x/topics/admin_configure_multiwal.html )

- если на hdfs настроены разные tier уровни с ssd и без, то указать чтобы wal кидали на ссд https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hbase_wal_storage_policy.html  ( Warning: ONE_SSD mode has not been thoroughly tested with HBase and is not recommended. - хоть в доках и написано предупреждение, но УМВР)

- поменять дефолтное значение для минор компакции (3 региона) на что-то более адкеватное, например 10-15.  при многих апдейтах не придется по десять раз переливать одно и тоже, а сразу более адекватно собирать будете

- ну и кеши настроить разные, но тут с ходу вот так не вспомню =)

если не сделаете то сразу просядете на записе из-за блокировок на wal
потом hdfs начнете нагибать на почти постоянным компакшеном
Есть же балклоад для заливки большого объёма информации. Работает намного быстрее чем делать пут миллион строк
источник

A

Alex in Data Engineers
Да, вот только балк насколько помню для заливки в пустую таблицу
источник

A

Alex in Data Engineers
По крайней мере раньше было
источник

M

Mironiken in Data Engineers
С год назад грузил балками, но вроде был тот ещё геморрой
источник

M

Mironiken in Data Engineers
Вообще в hbase очень многое от ключа зависит. Его нужно от задачи подбирать очень хорошо
источник

B

Buzz in Data Engineers
Alex
Да, вот только балк насколько помню для заливки в пустую таблицу
Нет. У нас объем данных такой, что путами мы будем неделями заливать. Большинство данных у нас грузится балками
источник
2019 June 23

OP

O. Petr in Data Engineers
#spark
Какой самый простой способ сделать, чтобы одинаковые ключи оказались в одних партициях ? И ещё вызов кастом партишинера после сортировки порядок сохранит ?
источник

DZ

Dmitry Zuev in Data Engineers
Mapbykey?
источник
2019 June 24

R

Renarde in Data Engineers
Всем привет. Скажите пожалуйста, кто пользоватся ElastiCache c Redis-backend -какие в нем есть подводные камни по сравнению с обычным Redis Cluster? Может какие-то ограничения, о которых не упомянуто в официальных доках Amazon?
источник

R

Roman in Data Engineers
Тоже интересен вопрос выше, так как думаю внедрять у себя.
источник

КБ

Константин Белов in Data Engineers
Тут есть девушки, которые занимаются наукой ? и рады будут заняться со мной квантовой физикой и может быть химией, чтобы выиграть соревнование по анализу данных на Kaggle.com ?
предложения в ЛС
источник

AN

Anna Novikova in Data Engineers
Lol
источник

GP

Grigory Pomadchin in Data Engineers
Константин Белов
Тут есть девушки, которые занимаются наукой ? и рады будут заняться со мной квантовой физикой и может быть химией, чтобы выиграть соревнование по анализу данных на Kaggle.com ?
предложения в ЛС
это спам?
источник

GP

Grigory Pomadchin in Data Engineers
источник