Size: a a a

2017 December 19

YE

Yury Emelyanov in Airflow
Мы до сих пор его осваиваем :)
источник

МС

Максим Сёмочкин in Airflow
Павел Максимов
Ребят привет, надо какую-то команду вводить, чтоб даг в вебинтерфейсе появился? в терминале его видно, а там нет
У тебя случайно не включена опция "Hide Paused Dags"?
источник

П

Павел Максимов in Airflow
Максим Сёмочкин
У тебя случайно не включена опция "Hide Paused Dags"?
где она находится?
источник

МС

Максим Сёмочкин in Airflow
В веб интерфейсе под списком дагов
источник

МС

Максим Сёмочкин in Airflow
Show Paused DAGs
источник

П

Павел Максимов in Airflow
выключена
источник

ДС

Дина Сафина in Airflow
Максим Сёмочкин
В веб интерфейсе под списком дагов
Чувствую, что наш переход на новую версию будет почти на 100% спровоцирован рассказами Максима :)
источник

МС

Максим Сёмочкин in Airflow
Только потом не бейте :)
источник

AP

Anton Protopopov in Airflow
Всем привет.
Не подскажите best practice по функциональному тестированию DAG?

Наша примерная архитектура:
Мы используем Airflow для выполнения задач на Hadoop кластере. Кластеров у нас 2, staging и production. На каждом есть машина с airflow. На staging для тестирования (test, backfill, scheduler), на production уже только scheduler (иногда backfill, но пока редко). Код airflow (ДАГи, таски, YAML конфиги, код сабдагов) синхронизуется через наш python пакет через гит. Соответственно настроен CI/CD веток гита master -> staging server, production -> production server. Пакет становится в директорию, которую можно менять только из под рута (раскидывается Ansible).

Возникает вопрос тестирования шедулера без прав рута, т.к. все операции CLI можно настроить на свои директории соответсвующим PYTHONPATH. Ну и при тестировании хотелось бы иметь вебморду, чтобы смотреть разрабатываемые сложные связи.

Возможные варианты:

- завести ещё одну машину под airflow типа QA на кластере staging. Там тестить, если всё ок, отправлять в master, далее смотреть что там всё в течение нескольких дней и в production
- под каждого юзера разворачивать docker контейнер с airflow
- может есть ещё какие варианты?

Пока мы склоняемся ко второму варианту, у кого-то есть опыт работы/сборки docker airflow и каким там могут быть подводные камни?
источник

П

Павел Максимов in Airflow
ребят, для чего в даге нужна переменная start_date ? таки не поня, где она участвует
источник

ДС

Дина Сафина in Airflow
Павел Максимов
ребят, для чего в даге нужна переменная start_date ? таки не поня, где она участвует
Это первая дата, за который будет отрабатывать даг.
источник

ДС

Дина Сафина in Airflow
Anton Protopopov
Всем привет.
Не подскажите best practice по функциональному тестированию DAG?

Наша примерная архитектура:
Мы используем Airflow для выполнения задач на Hadoop кластере. Кластеров у нас 2, staging и production. На каждом есть машина с airflow. На staging для тестирования (test, backfill, scheduler), на production уже только scheduler (иногда backfill, но пока редко). Код airflow (ДАГи, таски, YAML конфиги, код сабдагов) синхронизуется через наш python пакет через гит. Соответственно настроен CI/CD веток гита master -> staging server, production -> production server. Пакет становится в директорию, которую можно менять только из под рута (раскидывается Ansible).

Возникает вопрос тестирования шедулера без прав рута, т.к. все операции CLI можно настроить на свои директории соответсвующим PYTHONPATH. Ну и при тестировании хотелось бы иметь вебморду, чтобы смотреть разрабатываемые сложные связи.

Возможные варианты:

- завести ещё одну машину под airflow типа QA на кластере staging. Там тестить, если всё ок, отправлять в master, далее смотреть что там всё в течение нескольких дней и в production
- под каждого юзера разворачивать docker контейнер с airflow
- может есть ещё какие варианты?

Пока мы склоняемся ко второму варианту, у кого-то есть опыт работы/сборки docker airflow и каким там могут быть подводные камни?
Очень интересная тема!
Мы пока не добрались до тестирования шедулера.
источник

П

Павел Максимов in Airflow
Дина Сафина
Это первая дата, за который будет отрабатывать даг.
спасибо, разобрался, как работает
источник

I

Igor in Airflow
Павел Максимов
ребят, для чего в даге нужна переменная start_date ? таки не поня, где она участвует
https://airflow.incubator.apache.org/faq.html#what-s-the-deal-with-start-date
Вроде как первый запуск таски будет start-time + schedule interval, нет?
источник

OI

Oleg Ilinsky in Airflow
ага
за start_date (т.е. ds=start_date), но запустится он в start_date + schedule interval
источник

П

Павел Максимов in Airflow
поставил start_date 2017-01-01 интервал 1день, запустил. И шедулер пошел выполнять от этой даты, наверно до сегодняшней выполнит
источник

ДС

Дина Сафина in Airflow
Именно
источник

OI

Oleg Ilinsky in Airflow
до вчерашней включительно)
источник

П

Павел Максимов in Airflow
зачем тогда backfill нужен, если и так он от стартовой даты выполняет?
источник

OI

Oleg Ilinsky in Airflow
это немного другое
там можно за любой интервал запустить + различные опции типа mark_success и т.п.
источник