Size: a a a

2020 March 11

OO

Oleksandr Olgashko in Data Engineers
Dmitry Zuev
заведи потом под спарк
ну там интернал апи для кастомных расширений
источник

OO

Oleksandr Olgashko in Data Engineers
в 3 спарке сделают публичным, но он хз когда у нас будет
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry Zuev
возьми enumeratum
Вроде раньше какая-то фигня с сериализация была, нет?
источник

DZ

Dmitry Zuev in Data Engineers
Grigory Pomadchin
Вроде раньше какая-то фигня с сериализация была, нет?
У нас кастомная
источник

DZ

Dmitry Zuev in Data Engineers
Все ок
источник

DZ

Dmitry Zuev in Data Engineers
Grigory Pomadchin
Вроде раньше какая-то фигня с сериализация была, нет?
источник

DZ

Dmitry Zuev in Data Engineers
как то так
источник

DZ

Dmitry Zuev in Data Engineers
но можно лучше офк
источник

OO

Oleksandr Olgashko in Data Engineers
скорее бы дотти...
источник

GP

Grigory Pomadchin in Data Engineers
ну сначала 2.13 а с дотти кроссбилд поначалу будет
источник

A

Alexander in Data Engineers
Anton Zadorozhniy
вы хотите чтобы скрипт исполнялся используя много GPU которые сидят в разных серверах? или просто работал на сервере с GPU?
Первое
источник

A

Alexander in Data Engineers
Спасибо. Но модель у меня уже обучена.
источник

A

Alexander in Data Engineers
Anton Zadorozhniy
я так понимаю у коллеги не обучение а инференс все-таки, поэтому ему не хороводы всякие наверное нужны, а старый добрый селдон, но скрипт видимо придется переписать
https://github.com/SeldonIO/seldon-core этот? А можно просто использовать докер для моих целей?
источник

A

Alexander in Data Engineers
Serg Slipushenko
Мы использовали jep для интертеграции инференса на питоне в скалу
С ним можно использовать любые питон пакеты?
источник

A

Alexander in Data Engineers
Евгений Глотов
pyspark включённым pyspark.virtualenv позволяет развернуть на каждой ноде нужный энвайронмент и запускать там код, использующий нужные либы, например, с помощью pandas_udf, или обычной udf, или вообще на rdd
Спасибо. На всякий случай спрошу, если python либы очень специфические, типа BERT-а, то на PySparke всё равно их можно запустить?
источник

AZ

Anton Zadorozhniy in Data Engineers
вы можете просто обернуть ваш докер в куберовский джоб, но вы не сможете инферить один экземпляр вашего скрипта больше чем на одном воркере, если вы хотите чтобы ваш инференс граф исполнялся на пачке узлов (первый шаг на двух, второй на трех и так дальше) то надо использовать нормальные инференс графы, переписать скрипт на две части - деплой моделей и дергание инференс графа
источник

ЕГ

Евгений Глотов in Data Engineers
Alexander
Спасибо. На всякий случай спрошу, если python либы очень специфические, типа BERT-а, то на PySparke всё равно их можно запустить?
Он делает внутри pip install -r requirements.txt на каждой ноде
источник

ЕГ

Евгений Глотов in Data Engineers
Но теоретически можно и руками протащить на ноды все либы и прописать пути к ним
источник

ЕГ

Евгений Глотов in Data Engineers
Через sparkFiles
источник

UD

Uncel Duk in Data Engineers
conda-pack
xar
pex
источник