Телеграмм чат группы hadoopusers страница 2153

1) Про pyspark знаю, но вы уверены что к нему можно подключить любые python модули?
2) Вообще хотелось как можно больше инстанцев. Это же можно сделать с помощью k8s?

Можно сделать с к8с. Только еще год назад он не умел шарить гпу, насколько я помню

источник

08:38пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Alexander

Всем привет. Два простых вопроса. Есть у меня значит python скрипт с разными модулями (pytorch, tensorflow, theano, transformers и т.д.). Скрипт принимает текстовый документ, делает нужный расчёт и выплёвывает некоторые данные из этого текстового документа И есть виртуальный инвайромент с некоторым количеством GPUs где хочу этот скрипт запускать.
1) Я могу запустить этот скрипт на Spark-e? То что мельком посмотрел - такое впечатление что на спарке не получится запустить python модули. Или я не прав?
2) Я могу запустить этот скрипт используя Docker? Если да, что будет лучше, спарк или докер? В идеале вычисления хотелось бы проводить в real time и на GPUs.

вы хотите чтобы скрипт исполнялся используя много GPU которые сидят в разных серверах? или просто работал на сервере с GPU?

источник

09:14пожаловаться #7

АЖ

Андрей Жуков in Data Engineers

Stanislav

Можно сделать с к8с. Только еще год назад он не умел шарить гпу, насколько я помню

вроде nvidia что-то выпускала

источник

09:14пожаловаться #8

АЖ

Андрей Жуков in Data Engineers

https://github.com/Deepomatic/shared-gpu-nvidia-k8s-device-plugin - хм, даже и не nvidia

источник

09:17пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

я так понимаю у коллеги не обучение а инференс все-таки, поэтому ему не хороводы всякие наверное нужны, а старый добрый селдон, но скрипт видимо придется переписать

источник

09:25пожаловаться #10

S

Serg Slipushenko in Data Engineers

Мы использовали jep для интертеграции инференса на питоне в скалу

источник

11:42пожаловаться #11

S

Serg Slipushenko in Data Engineers

В целом оно скорее работает... Но шансов попасть себе в ногу и поймать утечку памяти не мало

источник

11:43пожаловаться #12

ЕГ

Евгений Глотов in Data Engineers

Alexander

Всем привет. Два простых вопроса. Есть у меня значит python скрипт с разными модулями (pytorch, tensorflow, theano, transformers и т.д.). Скрипт принимает текстовый документ, делает нужный расчёт и выплёвывает некоторые данные из этого текстового документа И есть виртуальный инвайромент с некоторым количеством GPUs где хочу этот скрипт запускать.
1) Я могу запустить этот скрипт на Spark-e? То что мельком посмотрел - такое впечатление что на спарке не получится запустить python модули. Или я не прав?
2) Я могу запустить этот скрипт используя Docker? Если да, что будет лучше, спарк или докер? В идеале вычисления хотелось бы проводить в real time и на GPUs.

pyspark включённым pyspark.virtualenv позволяет развернуть на каждой ноде нужный энвайронмент и запускать там код, использующий нужные либы, например, с помощью pandas_udf, или обычной udf, или вообще на rdd

источник

11:49пожаловаться #13

ЕГ

Евгений Глотов in Data Engineers

Где-то внизу табличка с нужными параметрами сессии:
https://community.cloudera.com/t5/Community-Articles/Using-VirtualEnv-with-PySpark/ta-p/245905

Cloudera

Using VirtualEnv with PySpark

Introduction For a simple PySpark application, you can use `--py-files` to specify its dependencies. A large PySpark application will have many dependencies, possibly including transitive dependencies. Sometimes a large application needs a Python package that has C code to compile before installatio...

источник

11:51пожаловаться #14

DZ

Dmitry Zuev in Data Engineers

Евгений Глотов

pyspark включённым pyspark.virtualenv позволяет развернуть на каждой ноде нужный энвайронмент и запускать там код, использующий нужные либы, например, с помощью pandas_udf, или обычной udf, или вообще на rdd

Но если у человека докер есть, зочем ему венв?

источник

11:51пожаловаться #15

ЕГ

Евгений Глотов in Data Engineers

Докер раскатывать как-то надо

источник

11:51пожаловаться #16

ЕГ

Евгений Глотов in Data Engineers

Если лень, то можно так)

источник

11:51пожаловаться #17

DZ

Dmitry Zuev in Data Engineers

Венв накатывать тоже надо

источник

11:51пожаловаться #18

O

Oleg in Data Engineers

Правильно я понимаю, что когда спарк работает с данными хайва, не используются протоколы типа thrift/jdbc он напрямую ходит в hdfs по путям из метастора и десериализует/сереализует данные?

источник

13:16пожаловаться #19

A

Alex in Data Engineers

Обычно да, если вы метастор используете только, а вот в случае jdbc то вроде честно ходит через него

источник

13:18пожаловаться #20