Size: a a a

2020 February 18

DZ

Dmitry Zuev in Data Engineers
Nikita Blagodarnyy
на спарк мл перепиши свои модельки и запускай под ярном. Тогда точно ничего свободного не останется.
Ну это хз, сразу искусственное ограничение на модели
источник

RS

Rinat Sharipov in Data Engineers
Dmitry Zuev
Да что там писать
это вопрос спорный, сказать можно про что угодно так, но спасибо за вариант
источник

R

Renarde in Data Engineers
погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark
источник

N

Nikita Blagodarnyy in Data Engineers
Dmitry Zuev
Ну это хз, сразу искусственное ограничение на модели
говорят, что там несложно. регрессия там, то се. вряд ли экспериментальные resnet-ы на 1000 слоев обучаются.
источник

DZ

Dmitry Zuev in Data Engineers
Rinat Sharipov
это вопрос спорный, сказать можно про что угодно так, но спасибо за вариант
Это утверждение спорное, так можно сказать что угодно, лишь бы ничего не пробовать
источник

RS

Rinat Sharipov in Data Engineers
Renarde
погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark
задача общая, есть различные pipeline ы обучения, в основном на python

их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения
источник

R

Renarde in Data Engineers
Rinat Sharipov
задача общая, есть различные pipeline ы обучения, в основном на python

их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения
так сделайте с mlflow.
модель делаете на python, пакуете ее в http-server, сервер по запросу отдает скоринг
источник

R

Renarde in Data Engineers
масштабируемость через инстансы http-server-а практически линейная
источник

DZ

Dmitry Zuev in Data Engineers
Renarde
погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark
Ну хз, распределенное обучение не только на спарке
источник

DZ

Dmitry Zuev in Data Engineers
Renarde
так сделайте с mlflow.
модель делаете на python, пакуете ее в http-server, сервер по запросу отдает скоринг
Дикие тормоза в проде
источник

R

Renarde in Data Engineers
Dmitry Zuev
Ну хз, распределенное обучение не только на спарке
ну можно еще попробовать tensorflow-spark / h2o / whatever else
источник

N

Nikita Blagodarnyy in Data Engineers
Rinat Sharipov
задача общая, есть различные pipeline ы обучения, в основном на python

их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения
а вам вообще нужна распределенная среда? может оно все и лишнее, и на персоналке обучится?
источник

RS

Rinat Sharipov in Data Engineers
Renarde
так сделайте с mlflow.
модель делаете на python, пакуете ее в http-server, сервер по запросу отдает скоринг
тут нет вопроса как сервить, с этим все понятно, есть вопрос, как учить и какие кроме kubernetes есть варианты с удобной утилизацией ресурсов
источник

АЖ

Андрей Жуков in Data Engineers
Dmitry Zuev
Дикие тормоза в проде
в большинстве случаев тормоза не у модели, а какого-нибудь пандаса

но там можно похачить пандас и уйти ближе к нумпи
источник

S

Serg Slipushenko in Data Engineers
а чем плох кубер?
источник

S

Serg Slipushenko in Data Engineers
много воркеров падает или утилизация ресов низкая?
источник

RS

Rinat Sharipov in Data Engineers
Serg Slipushenko
а чем плох кубер?
kuber ни чем не плох, решение коробочное и kubernetes в себя не включает, по крайней мере пока )
источник

АЖ

Андрей Жуков in Data Engineers
Rinat Sharipov
kuber ни чем не плох, решение коробочное и kubernetes в себя не включает, по крайней мере пока )
а что включает?
источник

RS

Rinat Sharipov in Data Engineers
Андрей Жуков
а что включает?
есть yarn / oozie, хочу понять что я могу построить на том, что имею
источник

АЖ

Андрей Жуков in Data Engineers
Rinat Sharipov
есть yarn / oozie, хочу понять что я могу построить на том, что имею
docker over yarn жизнеспособен, в целом
источник