Телеграмм чат группы hadoopusers страница 1382

большой поток?

13:33пожаловаться #1

Renarde in Data Engineers

Всем привет. Подскажите пожалуйста, примерчик - как сделать следующую логику в Airflow:
- выполняем какой-то пайплайн
- затем выполняем селект в базу - если одно поле больше другого -> выполняем дальше одну ветку дага, если меньше - другую

14:12пожаловаться #2

Artem Kulbasov in Data Engineers

BranchPythonOperator, в эту сторону скорее всего смотреть.

14:15пожаловаться #3

Кто плотно работает с hbase, подскажите, насколько все плохо на широких таблицах, в районе 2000 столбцов?

21:06пожаловаться #4

2019 June 21

Buzz in Data Engineers

Хбецз официально заявляет что при использовании больше 3 cf на таблицу, ему становится плохо.

05:21пожаловаться #5

Buzz in Data Engineers

Когда срабатывает триггер сброса кэша одной cf, абсолютно все cf сбрасываются на диск

05:22пожаловаться #6

Да, поэтому можно получить много мелких сбросов и файлов на хдфс, ну и как результат чаще компакшен и тд

08:18пожаловаться #7

А вот в пределах одной колонки пихали и миллионы

08:18пожаловаться #8

Но там нужно быть аккуратным потом с извлечением данных, тот же питон лезет через трифт сервер, а тот запрашивает сразу весь ключ и не переваривает ответ, трифт сервер ложится

08:20пожаловаться #9

О, спасибо, толково.

08:34пожаловаться #10

Alex

А какой самый быстрый способ? Можно кстати снепшотить через хдфс и читать потом сами файлы? Или хбейз формат не очень?

08:35пожаловаться #11

Хбейз не очень, знаю есть читатели отдельных снепшотов, но фишка как и в кассандре и любой системе на lsm tree: данные не обновляются а дописываются

08:39пожаловаться #12

То есть в обратном порядке каждый файл проверять для восстановления нужно

08:39пожаловаться #13

Как читать: в параметрах запроса-сканера ставишь параметр что разрешается один ключ разбивать на части и указываешь размер блока

08:40пожаловаться #14

В итоге сканер тебе будет выдавать: ключ1 - набор валифаеров, ключ2-набор квалифаеров, разделение буфера и подкачка данных, ключ2-продолжение набора

08:41пожаловаться #15

Если её передать параметр, то тебе ключ-набор квалифаеров всегда полные идут и не повторяются

08:41пожаловаться #16

С параметром на next можно получить ещё раз следующим такой же keyId

08:42пожаловаться #17

Хорошо помогают сопроцессоры, они данные подняли и сразу посчитались какие агрегаты на регион сервере, но с ними ОЧЕНЬ аккуратно нужно быть, так как есть риск положить регион, были случаи :)

08:44пожаловаться #18

Тот же каунт на сопроцессорах и на сотню миллионов отрабатывал за десяток секунд, а вот стандартный через сканер будет работать доооолго

08:46пожаловаться #19

ЛР

Лев Рагулин in Data Engineers

Buzz

Хбецз официально заявляет что при использовании больше 3 cf на таблицу, ему становится плохо.

А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.