Size: a a a

2020 February 18

RS

Rinat Sharipov in Data Engineers
Андрей Жуков
docker over yarn жизнеспособен, в целом
тоже как вариант, спасибо
источник

АЖ

Андрей Жуков in Data Engineers
но можно и свои контейнеры деплоить в ярн, кто ж мешает
источник

N

Nikita Blagodarnyy in Data Engineers
Renarde
ну можно еще попробовать tensorflow-spark / h2o / whatever else
h2o разве распределенный? мне казалось, его фишка на натравливании ансамбля и выбора лучшей модели.
источник

DZ

Dmitry Zuev in Data Engineers
Андрей Жуков
в большинстве случаев тормоза не у модели, а какого-нибудь пандаса

но там можно похачить пандас и уйти ближе к нумпи
Тормоза у хттп в таком сервинге
источник

R

Renarde in Data Engineers
Nikita Blagodarnyy
h2o разве распределенный? мне казалось, его фишка на натравливании ансамбля и выбора лучшей модели.
распределенный, поверх спарка умеет работать (и standalone тоже распределенный)
источник

R

Renarde in Data Engineers
ну во всяком случае был пару лет назад, когда я с ним игрался
источник

АЖ

Андрей Жуков in Data Engineers
Dmitry Zuev
Тормоза у хттп в таком сервинге
а что есть тормоза? какие-то SLA жесткие?
источник

DZ

Dmitry Zuev in Data Engineers
Андрей Жуков
а что есть тормоза? какие-то SLA жесткие?
Вы просто сказали про линейную масштабируемость, да, добавляй тачки чтобы кормить хттп питона
источник

R

Renarde in Data Engineers
Dmitry Zuev
Вы просто сказали про линейную масштабируемость, да, добавляй тачки чтобы кормить хттп питона
эт я сказал. ну да, а что вы хотели - нужно сверхбыстро - нужно платить за это
источник

DZ

Dmitry Zuev in Data Engineers
Или сервить с плюсов
источник

R

Renarde in Data Engineers
мы делали вот такое решение (не знаю насчет его оптимальности, наш loadtest-ы были в норме).
- на стороне сервиса собирается первичный набор фичей
- этот набор фичей передается на сервак для расчета итогового вектора фичей (сервер на Scala)
- сервак для расчета фичей сохраняет вектор в redis по ключу
- сервис с ключиком обращается в сервис с моделькой
- сервис с моделькой достает вектор фичей из редиса, считает скор и отдает предикт
источник

АЖ

Андрей Жуков in Data Engineers
Dmitry Zuev
Или сервить с плюсов
жестоко
источник

DZ

Dmitry Zuev in Data Engineers
Но это если нужно прям по хттп
источник

DZ

Dmitry Zuev in Data Engineers
Чем например кафка плюс питон не устраивает?
источник

R

Renarde in Data Engineers
Dmitry Zuev
Но это если нужно прям по хттп
ну по хттп большие вектора данных гонять это плохая идея, априори
источник

DZ

Dmitry Zuev in Data Engineers
Так я про это же
источник

DZ

Dmitry Zuev in Data Engineers
То есть в 90% это бред
источник

R

Renarde in Data Engineers
так вы и не гоняйте их целиком.
передавайте только исходные фичи, а их расчет пусть на сервак ложится, а на сервере оптимизируйте с numba + jit-том
источник

РП

Роман Пашкевич in Data Engineers
Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.
источник

АЖ

Андрей Жуков in Data Engineers
Dmitry Zuev
Но это если нужно прям по хттп
ну, если задача как-то обернуть во фреймворк и говнякать микросервисы по эксперименты, то можно

Ну а с большими сервисами лучше подумать
источник