Всем привет. Подскажите пожалуйста, примерчик - как сделать следующую логику в Airflow: - выполняем какой-то пайплайн - затем выполняем селект в базу - если одно поле больше другого -> выполняем дальше одну ветку дага, если меньше - другую
Но там нужно быть аккуратным потом с извлечением данных, тот же питон лезет через трифт сервер, а тот запрашивает сразу весь ключ и не переваривает ответ, трифт сервер ложится
Но там нужно быть аккуратным потом с извлечением данных, тот же питон лезет через трифт сервер, а тот запрашивает сразу весь ключ и не переваривает ответ, трифт сервер ложится
А какой самый быстрый способ? Можно кстати снепшотить через хдфс и читать потом сами файлы? Или хбейз формат не очень?
Хорошо помогают сопроцессоры, они данные подняли и сразу посчитались какие агрегаты на регион сервере, но с ними ОЧЕНЬ аккуратно нужно быть, так как есть риск положить регион, были случаи :)
Хбецз официально заявляет что при использовании больше 3 cf на таблицу, ему становится плохо.
А где про это можно почитать ? Вроде column family как раз для того и придумали, чтобы отдельно на диск писать. Я даже считал что они лежат в отдельных файлах.