Size: a a a

2019 June 21

S

Stanislav in Data Engineers
Alex
Тот же каунт на сопроцессорах и на сотню миллионов отрабатывал за десяток секунд, а вот стандартный через сканер будет работать доооолго
Спасибо
источник

A

Alex in Data Engineers
При переезде с 0.х на 1.x вроде они выкинули свой бинарный протокол и выпилили протобаф. Конечно клиенты писать проще стало и совместимость поддерживать между версиями, но вот нагрузка на gc выросла.
источник

A

Alex in Data Engineers
Лев Рагулин
А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.
Да, свой cf в файле своём
источник

A

Alex in Data Engineers
И компактятся регионы тоже version1 + version2 и тд

А как результат когда у тебя и большие и мелкие cf вместе сразу гонятся
источник

A

Alex in Data Engineers
В куду как читал каждый колумн фемили компактится независимо, то есть по cf A можешь сделать компакеш 3х регионов, по cf B 5ти и все будет ок
источник

A

Alex in Data Engineers
В хбейз пока так не умеют, каждый флаш это свой срез всех колонок
источник

ЛР

Лев Рагулин in Data Engineers
Куду лежит не на HDFS
источник

ЛР

Лев Рагулин in Data Engineers
Может особенности работы hbase с этим связаны ?
источник

A

Alex in Data Engineers
нет, хбейз когда делали то считалось достаточно логичным сбрасывать целиком все

hbase/accumulo/cassandra почти под кальку сделаны

когда делали куду уже было понятие что разные колумнфемили заполняются с разной скоростью, обновляются с разной интенсивностью и тд, а значит и компакшены на них нужно делать с разными интервалами
источник

A

Alex in Data Engineers
в остальном что читал про куду, то это оптимизация дискового формата, что конечно хорошо, но не про общий подход к архитектуре
источник

A

Alex in Data Engineers
в проде куду не гонял =\
источник

A

Alex in Data Engineers
Major compaction can be performed on any subset of columns, so compaction can be performed on a single column if it receives significantly more updates than other columns, which reduces the I/O for major delta compactions by avoiding having to rewrite unchanged data.

из доков куды
источник

B

Buzz in Data Engineers
Лев Рагулин
А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.
источник

S

Stanislav in Data Engineers
Alex
Хбейз не очень, знаю есть читатели отдельных снепшотов, но фишка как и в кассандре и любой системе на lsm tree: данные не обновляются а дописываются
просто похоронил всю идею ( была мысль: есть большой поток, который несет море апдейтов, но для ограниченного числа строк - ну скажем около 10 млн. и использовать хбейз как хранилище состояния этих строк. и к этому требуется делать срезы раз в какой то временной промежуток
источник

A

Alex in Data Engineers
а в чем проблема
источник

A

Alex in Data Engineers
раз в сколько то время делаешь snapshot
источник

A

Alex in Data Engineers
оно похоже как с кассандрой: флаш на диск + линки какие файлы использовались
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
можно в спарк как хадуповский подсунуть инпут формат
источник

A

Alex in Data Engineers
читаешь
источник