Телеграмм чат группы hadoopusers страница 1383

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 June 21

S

Stanislav in Data Engineers

Тот же каунт на сопроцессорах и на сотню миллионов отрабатывал за десяток секунд, а вот стандартный через сканер будет работать доооолго

Спасибо

источник

08:48пожаловаться #1

A

Alex in Data Engineers

При переезде с 0.х на 1.x вроде они выкинули свой бинарный протокол и выпилили протобаф. Конечно клиенты писать проще стало и совместимость поддерживать между версиями, но вот нагрузка на gc выросла.

источник

08:50пожаловаться #2

A

Alex in Data Engineers

Лев Рагулин

А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.

Да, свой cf в файле своём

источник

08:50пожаловаться #3

A

Alex in Data Engineers

И компактятся регионы тоже version1 + version2 и тд

А как результат когда у тебя и большие и мелкие cf вместе сразу гонятся

источник

08:52пожаловаться #4

A

Alex in Data Engineers

В куду как читал каждый колумн фемили компактится независимо, то есть по cf A можешь сделать компакеш 3х регионов, по cf B 5ти и все будет ок

источник

08:53пожаловаться #5

A

Alex in Data Engineers

В хбейз пока так не умеют, каждый флаш это свой срез всех колонок

источник

08:54пожаловаться #6

ЛР

Лев Рагулин in Data Engineers

Куду лежит не на HDFS

источник

09:04пожаловаться #7

ЛР

Лев Рагулин in Data Engineers

Может особенности работы hbase с этим связаны ?

источник

09:04пожаловаться #8

A

Alex in Data Engineers

нет, хбейз когда делали то считалось достаточно логичным сбрасывать целиком все

hbase/accumulo/cassandra почти под кальку сделаны

когда делали куду уже было понятие что разные колумнфемили заполняются с разной скоростью, обновляются с разной интенсивностью и тд, а значит и компакшены на них нужно делать с разными интервалами

источник

09:08пожаловаться #9

A

Alex in Data Engineers

в остальном что читал про куду, то это оптимизация дискового формата, что конечно хорошо, но не про общий подход к архитектуре

источник

09:09пожаловаться #10

A

Alex in Data Engineers

в проде куду не гонял =\

источник

09:09пожаловаться #11

A

Alex in Data Engineers

Major compaction can be performed on any subset of columns, so compaction can be performed on a single column if it receives significantly more updates than other columns, which reduces the I/O for major delta compactions by avoiding having to rewrite unchanged data.

из доков куды

источник

09:12пожаловаться #12

B

Buzz in Data Engineers

Лев Рагулин

А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.

https://hbase.apache.org/book.html#number.of.cfs

hbase.apache.org

Apache HBase ™ Reference Guide

источник

09:28пожаловаться #13

S

Stanislav in Data Engineers

Хбейз не очень, знаю есть читатели отдельных снепшотов, но фишка как и в кассандре и любой системе на lsm tree: данные не обновляются а дописываются

просто похоронил всю идею ( была мысль: есть большой поток, который несет море апдейтов, но для ограниченного числа строк - ну скажем около 10 млн. и использовать хбейз как хранилище состояния этих строк. и к этому требуется делать срезы раз в какой то временной промежуток

источник

09:29пожаловаться #14

A

Alex in Data Engineers

а в чем проблема

источник

09:31пожаловаться #15

A

Alex in Data Engineers

раз в сколько то время делаешь snapshot

источник

09:31пожаловаться #16

A

Alex in Data Engineers

оно похоже как с кассандрой: флаш на диск + линки какие файлы использовались

источник

09:32пожаловаться #17

A

Alex in Data Engineers

https://hbase.apache.org/apidocs/org/apache/hadoop/hbase/mapreduce/TableSnapshotInputFormat.html

источник

09:32пожаловаться #18

A

Alex in Data Engineers

можно в спарк как хадуповский подсунуть инпут формат

источник

09:32пожаловаться #19

A

Alex in Data Engineers

читаешь

источник

09:32пожаловаться #20