Size: a a a

2020 March 11

A

Alex in Data Engineers
Pyspark запускает воркер на python и по сокету с ним общается, поэтому тот python процесс умеет все что умеет python
источник

A

Alex in Data Engineers
Андрей Жуков
И зачем спарк,  если нужно гпу?
Оркестрация?
источник

АЖ

Андрей Жуков in Data Engineers
Alex
Оркестрация?
Есть более подходящие для этого фреймворки
источник

A

Alexander in Data Engineers
Андрей Жуков
Есть более подходящие для этого фреймворки
Можете пожалуйста сказать какие?
источник

АЖ

Андрей Жуков in Data Engineers
Alexander
Можете пожалуйста сказать какие?
источник

S

Stanislav in Data Engineers
Alexander
1) Про pyspark знаю, но вы уверены что к нему можно подключить любые python модули?
2) Вообще хотелось как можно больше инстанцев. Это же можно сделать с помощью k8s?
Можно сделать с к8с. Только еще год назад он не умел шарить гпу, насколько я помню
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander
Всем привет. Два простых вопроса. Есть у меня значит python скрипт с разными модулями (pytorch, tensorflow, theano, transformers и т.д.). Скрипт принимает текстовый документ, делает нужный расчёт и выплёвывает некоторые данные из этого текстового документа И есть виртуальный инвайромент с некоторым количеством GPUs где хочу этот скрипт запускать.
1) Я могу запустить этот скрипт на Spark-e? То что мельком посмотрел - такое впечатление что на спарке не получится запустить python модули. Или я не прав?
2) Я могу запустить этот скрипт используя Docker? Если да, что будет лучше, спарк или докер? В идеале вычисления хотелось бы проводить в real time и на GPUs.
вы хотите чтобы скрипт исполнялся используя много GPU которые сидят в разных серверах? или просто работал на сервере с GPU?
источник

АЖ

Андрей Жуков in Data Engineers
Stanislav
Можно сделать с к8с. Только еще год назад он не умел шарить гпу, насколько я помню
вроде nvidia что-то выпускала
источник

АЖ

Андрей Жуков in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
я так понимаю у коллеги не обучение а инференс все-таки, поэтому ему не хороводы всякие наверное нужны, а старый добрый селдон, но скрипт видимо придется переписать
источник

S

Serg Slipushenko in Data Engineers
Мы использовали jep для интертеграции инференса на питоне в скалу
источник

S

Serg Slipushenko in Data Engineers
В целом оно скорее работает... Но шансов попасть себе в ногу и поймать утечку памяти не мало
источник

ЕГ

Евгений Глотов in Data Engineers
Alexander
Всем привет. Два простых вопроса. Есть у меня значит python скрипт с разными модулями (pytorch, tensorflow, theano, transformers и т.д.). Скрипт принимает текстовый документ, делает нужный расчёт и выплёвывает некоторые данные из этого текстового документа И есть виртуальный инвайромент с некоторым количеством GPUs где хочу этот скрипт запускать.
1) Я могу запустить этот скрипт на Spark-e? То что мельком посмотрел - такое впечатление что на спарке не получится запустить python модули. Или я не прав?
2) Я могу запустить этот скрипт используя Docker? Если да, что будет лучше, спарк или докер? В идеале вычисления хотелось бы проводить в real time и на GPUs.
pyspark включённым pyspark.virtualenv позволяет развернуть на каждой ноде нужный энвайронмент и запускать там код, использующий нужные либы, например, с помощью pandas_udf, или обычной udf, или вообще на rdd
источник

ЕГ

Евгений Глотов in Data Engineers
Где-то внизу табличка с нужными параметрами сессии:
https://community.cloudera.com/t5/Community-Articles/Using-VirtualEnv-with-PySpark/ta-p/245905
источник

DZ

Dmitry Zuev in Data Engineers
Евгений Глотов
pyspark включённым pyspark.virtualenv позволяет развернуть на каждой ноде нужный энвайронмент и запускать там код, использующий нужные либы, например, с помощью pandas_udf, или обычной udf, или вообще на rdd
Но если у человека докер есть, зочем ему венв?
источник

ЕГ

Евгений Глотов in Data Engineers
Докер раскатывать как-то надо
источник

ЕГ

Евгений Глотов in Data Engineers
Если лень, то можно так)
источник

DZ

Dmitry Zuev in Data Engineers
Венв накатывать тоже надо
источник

O

Oleg in Data Engineers
Правильно я понимаю, что когда спарк работает с данными хайва, не используются протоколы типа thrift/jdbc он напрямую ходит в hdfs по путям из метастора и десериализует/сереализует данные?
источник

A

Alex in Data Engineers
Обычно да, если вы метастор используете только, а вот в случае jdbc то вроде честно ходит через него
источник