Телеграмм чат группы hadoopusers страница 2090

Nikita Blagodarnyy

на спарк мл перепиши свои модельки и запускай под ярном. Тогда точно ничего свободного не останется.

Ну это хз, сразу искусственное ограничение на модели

14:51пожаловаться #1

RS

Rinat Sharipov in Data Engineers

Dmitry Zuev

Да что там писать

это вопрос спорный, сказать можно про что угодно так, но спасибо за вариант

14:52пожаловаться #2

R

погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark

14:52пожаловаться #3

N

Nikita Blagodarnyy in Data Engineers

Dmitry Zuev

Ну это хз, сразу искусственное ограничение на модели

говорят, что там несложно. регрессия там, то се. вряд ли экспериментальные resnet-ы на 1000 слоев обучаются.

14:53пожаловаться #4

DZ

Rinat Sharipov

это вопрос спорный, сказать можно про что угодно так, но спасибо за вариант

Это утверждение спорное, так можно сказать что угодно, лишь бы ничего не пробовать

14:54пожаловаться #5

RS

Rinat Sharipov in Data Engineers

погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark

задача общая, есть различные pipeline ы обучения, в основном на python

их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения

14:54пожаловаться #6

R

Rinat Sharipov

задача общая, есть различные pipeline ы обучения, в основном на python

их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения

так сделайте с mlflow.
модель делаете на python, пакуете ее в http-server, сервер по запросу отдает скоринг

14:54пожаловаться #7

R

масштабируемость через инстансы http-server-а практически линейная

14:55пожаловаться #8

DZ

погодите. если модель надо обучать именно на всех больших данных - тут конечно без Spark ML не обойтись.
если нужно только делать inference - можно построить модель на питоне и запаковать ее в pyspark

Ну хз, распределенное обучение не только на спарке

14:55пожаловаться #9

DZ

так сделайте с mlflow.
модель делаете на python, пакуете ее в http-server, сервер по запросу отдает скоринг

Дикие тормоза в проде

14:55пожаловаться #10

R

Dmitry Zuev

Ну хз, распределенное обучение не только на спарке

ну можно еще попробовать tensorflow-spark / h2o / whatever else

14:56пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

Rinat Sharipov

задача общая, есть различные pipeline ы обучения, в основном на python

их надо запускать, получать модели и далее сервить, вот я сейчас хочу разобраться, какие есть варианты для запуска обучения

а вам вообще нужна распределенная среда? может оно все и лишнее, и на персоналке обучится?

14:56пожаловаться #12

RS

Rinat Sharipov in Data Engineers

так сделайте с mlflow.
модель делаете на python, пакуете ее в http-server, сервер по запросу отдает скоринг

тут нет вопроса как сервить, с этим все понятно, есть вопрос, как учить и какие кроме kubernetes есть варианты с удобной утилизацией ресурсов