Size: a a a

2020 March 10

MB

Mikhail Butalin in Data Engineers
Это касаемо активных спарковых джобов которые в ярн запущены
источник

MB

Mikhail Butalin in Data Engineers
Я так понимаю эта статика что в static содержится, стили скрипты и тп
источник

MB

Mikhail Butalin in Data Engineers
А не должно ли это быть включено в jar который запускается?
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Butalin
А не должно ли это быть включено в jar который запускается?
Every SparkContext launches a web UI, by default on port 4040, that displays useful information about the application.
источник

MB

Mikhail Butalin in Data Engineers
Нет ничего на 4040
источник

MB

Mikhail Butalin in Data Engineers
У меня тут клинический случай cdh  ssl krb5 😂
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Butalin
У меня тут клинический случай cdh  ssl krb5 😂
а если запустить в режиме client на отдельной машине, там 4040 будет занят?
источник

MB

Mikhail Butalin in Data Engineers
Хз, не рискну с прод кластера
источник

MB

Mikhail Butalin in Data Engineers
Я внутрь джарника заглянул, там нет ничего про static директорию
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Butalin
Я внутрь джарника заглянул, там нет ничего про static директорию
возможно ты не в тот  jar заглянул, там же их много
https://github.com/apache/spark/tree/master/core/src/main/resources/org/apache/spark/ui/static
источник

GP

Grigory Pomadchin in Data Engineers
Mikhail Butalin
У меня интерфейс в спарке поломаный, который application ui. Куда рыть?
депенси в джарке приложения твоего ломают его
источник

GP

Grigory Pomadchin in Data Engineers
посмотри эксепшоны какие кидает драйвер / мастер в тот момент когда в юайку тыкаешься (они точно что-то пишут в логи, даже когда favicon отсутсвует)
источник

GP

Grigory Pomadchin in Data Engineers
обычно это лечится эксклудами из эсембли джарника javax.servlet, javax.servlet.jsp, всякими jetty servelet api и т.п. иногда это бывает javax-rs тоже; вобщем логи смотреть надо - что-то не тех версий или отсутствует
источник
2020 March 11

MB

Mikhail Butalin in Data Engineers
ух! спасибо!
источник

MB

Mikhail Butalin in Data Engineers
гляну завтра
источник

A

Alexander in Data Engineers
Всем привет. Два простых вопроса. Есть у меня значит python скрипт с разными модулями (pytorch, tensorflow, theano, transformers и т.д.). Скрипт принимает текстовый документ, делает нужный расчёт и выплёвывает некоторые данные из этого текстового документа И есть виртуальный инвайромент с некоторым количеством GPUs где хочу этот скрипт запускать.
1) Я могу запустить этот скрипт на Spark-e? То что мельком посмотрел - такое впечатление что на спарке не получится запустить python модули. Или я не прав?
2) Я могу запустить этот скрипт используя Docker? Если да, что будет лучше, спарк или докер? В идеале вычисления хотелось бы проводить в real time и на GPUs.
источник

A

Alex in Data Engineers
1 pyspark давно есть
2 если вам 1 инстанса достаточно, то запустите в докере, будет проще
источник

A

Alexander in Data Engineers
Alex
1 pyspark давно есть
2 если вам 1 инстанса достаточно, то запустите в докере, будет проще
1) Про pyspark знаю, но вы уверены что к нему можно подключить любые python модули?
2) Вообще хотелось как можно больше инстанцев. Это же можно сделать с помощью k8s?
источник

A

Alex in Data Engineers
Подключить можно почти любой, но не факт что он будет работать как вы хотите

Отдельно в партициях хоть numpy можно использовать

Но это не означает что у вас numpy автоматически научится скейлится на множество машин
источник

АЖ

Андрей Жуков in Data Engineers
И зачем спарк,  если нужно гпу?
источник