Size: a a a

2020 February 18

RS

Rinat Sharipov in Data Engineers
вот да, а мне хочется чтобы не морочить себе голову и все уже было
источник

RS

Rinat Sharipov in Data Engineers
cgroups понятно что внизу все решат, но я же не буду это руками менеджить
источник

UD

Uncel Duk in Data Engineers
Куб это делает за вас
источник

UD

Uncel Duk in Data Engineers
Ярн тоже
источник

RS

Rinat Sharipov in Data Engineers
Uncel Duk
Ярн тоже
мне пока не совсем понятно, как например используя oozie или airflow ограничить доступное кол-во ресурсов для python скрипта
источник

N

Nikita Blagodarnyy in Data Engineers
Rinat Sharipov
сейчас нет, я только погружаюсь в тему запуска pipeline ов, которые пишут аналитики

обучение пока не распределенное, pipeline ы построены на sklearn моделях, логистическая регрессия и т.п.

сейчас у меня такая концепция, есть очередь на обучение, я ее разгребаю и запускаю mlflow проект, он запускается на мощной тачке и учит модель, все складывается в mlflow, откуда при успешном обучении модель уезжает под ноги задачи, которая может эту модель как udf функцию предоставить

хочется запускать все не друг за другом, а максимально утилизировать как одну тачку, так и кластер таких машин, если он у кого то есть

сейчас у меня есть только опыт и понимание работы с yarn и java, и не очень понятно, как используя какой то workflow engine ограничить питоновский скрипт по ресурсам

т.е. есть четкое понимание, что если на этой мощной тачке моделим учить друг за другом, то все будет ок, но задач на обучение будет много и с утилизацией в любом случае надо будет что то делать
Mesos как раз придуман,чтобы максимально утилизировать кластер.
источник

DZ

Dmitry Zuev in Data Engineers
Rinat Sharipov
мне пока не совсем понятно, как например используя oozie или airflow ограничить доступное кол-во ресурсов для python скрипта
Запускать через сабмит на кластере ж
источник

N

Nikita Blagodarnyy in Data Engineers
Rinat Sharipov
мне пока не совсем понятно, как например используя oozie или airflow ограничить доступное кол-во ресурсов для python скрипта
В airflow заявлен режим масштабирования kubernetes. А там уже можно ресурсами рулить.
источник

DZ

Dmitry Zuev in Data Engineers
Через кудоп
источник

RS

Rinat Sharipov in Data Engineers
Dmitry Zuev
Через кудоп
?
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
В airflow заявлен режим масштабирования kubernetes. А там уже можно ресурсами рулить.
Ну типа он воркер таски в кубах запиливает. Не знаю, насколько это вкусно, я тестил только локально и через сельдерей. Работает, но с болью и слезами.
источник

DZ

Dmitry Zuev in Data Engineers
Kuber pod operator
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Mesos как раз придуман,чтобы максимально утилизировать кластер.
Можно в кубере оператором сделать, следить за фактической утилизацией и скейлить, но задачу на уровне кластера не решает
источник

R

Renarde in Data Engineers
Rinat Sharipov
мне пока не совсем понятно, как например используя oozie или airflow ограничить доступное кол-во ресурсов для python скрипта
через kubernetesoperator в эйрфлоу.
вы пакуете ваш скрипт в k8s объект, устанавливаете ресурсные ограничения на уровне этого объекта, а эйрфлоу просто запускает его
источник

DZ

Dmitry Zuev in Data Engineers
Nikita Blagodarnyy
Ну типа он воркер таски в кубах запиливает. Не знаю, насколько это вкусно, я тестил только локально и через сельдерей. Работает, но с болью и слезами.
Эт шляпа, пусть воркер плодит поды с нужными ресурсами
источник

RS

Rinat Sharipov in Data Engineers
Renarde
через kubernetesoperator в эйрфлоу.
вы пакуете ваш скрипт в k8s объект, устанавливаете ресурсные ограничения на уровне этого объекта, а эйрфлоу просто запускает его
ага, с kubernetes - примерно понятно, что это сделать проще будет, надо почитать, но его у меня пока нет, а есть только yarn )
источник

DZ

Dmitry Zuev in Data Engineers
Ну напиши свой йарн апп оператор
источник

RS

Rinat Sharipov in Data Engineers
Dmitry Zuev
Ну напиши свой йарн апп оператор
написать можно, вопрос нужно ли, и сколько это будет стоить
источник

N

Nikita Blagodarnyy in Data Engineers
на спарк мл перепиши свои модельки и запускай под ярном. Тогда точно ничего свободного не останется.
источник

DZ

Dmitry Zuev in Data Engineers
Rinat Sharipov
написать можно, вопрос нужно ли, и сколько это будет стоить
Да что там писать
источник