Size: a a a

2019 June 20

S

Stanislav in Data Engineers
большой поток?
источник

R

Renarde in Data Engineers
Всем привет. Подскажите пожалуйста, примерчик - как сделать следующую логику в Airflow:
- выполняем какой-то пайплайн
- затем выполняем селект в базу - если одно поле больше другого -> выполняем дальше одну ветку дага, если меньше - другую
источник

AK

Artem Kulbasov in Data Engineers
BranchPythonOperator, в эту сторону скорее всего смотреть.
источник

S

Stanislav in Data Engineers
Кто плотно работает с hbase,  подскажите,  насколько все плохо на широких таблицах,  в районе 2000 столбцов?
источник
2019 June 21

B

Buzz in Data Engineers
Хбецз официально заявляет что при использовании больше 3 cf на таблицу, ему становится плохо.
источник

B

Buzz in Data Engineers
Когда срабатывает триггер сброса кэша одной cf, абсолютно все cf сбрасываются на диск
источник

A

Alex in Data Engineers
Да, поэтому можно получить много мелких сбросов и файлов на хдфс, ну и как результат чаще компакшен и тд
источник

A

Alex in Data Engineers
А вот в пределах одной колонки пихали и миллионы
источник

A

Alex in Data Engineers
Но там нужно быть аккуратным потом с извлечением данных, тот же питон лезет через трифт сервер, а тот запрашивает сразу весь ключ и не переваривает ответ, трифт сервер ложится
источник

S

Stanislav in Data Engineers
О, спасибо,  толково.
источник

S

Stanislav in Data Engineers
Alex
Но там нужно быть аккуратным потом с извлечением данных, тот же питон лезет через трифт сервер, а тот запрашивает сразу весь ключ и не переваривает ответ, трифт сервер ложится
А какой самый быстрый способ? Можно кстати снепшотить через хдфс и читать потом сами файлы? Или хбейз формат не очень?
источник

A

Alex in Data Engineers
Хбейз не очень, знаю есть читатели отдельных снепшотов, но фишка как и в кассандре и любой системе на lsm tree: данные не обновляются а дописываются
источник

A

Alex in Data Engineers
То есть в обратном порядке каждый файл проверять для восстановления нужно
источник

A

Alex in Data Engineers
Как читать: в параметрах запроса-сканера ставишь параметр что разрешается один ключ разбивать на части и указываешь размер блока
источник

A

Alex in Data Engineers
В итоге сканер тебе будет выдавать: ключ1 - набор валифаеров, ключ2-набор квалифаеров, разделение буфера и подкачка данных, ключ2-продолжение набора
источник

A

Alex in Data Engineers
Если её передать параметр, то тебе ключ-набор квалифаеров всегда полные идут и не повторяются
источник

A

Alex in Data Engineers
С параметром на next можно получить ещё раз следующим такой же keyId
источник

A

Alex in Data Engineers
Хорошо помогают сопроцессоры, они данные подняли и сразу посчитались какие агрегаты на регион сервере, но с ними ОЧЕНЬ аккуратно нужно быть, так как есть риск положить регион, были случаи :)
источник

A

Alex in Data Engineers
Тот же каунт на сопроцессорах и на сотню миллионов отрабатывал за десяток секунд, а вот стандартный через сканер будет работать доооолго
источник

ЛР

Лев Рагулин in Data Engineers
Buzz
Хбецз официально заявляет что при использовании больше 3 cf на таблицу, ему становится плохо.
А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.
источник