Size: a a a

2019 March 12

AM

Artem Muravlev in Moscow Spark
Запускаю на ярне.
spark-submit \
--master yarn \
--conf "spark.driver.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \
--conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \
--deploy-mode cluster \
--num-executors 3 \
--executor-memory 11000m \
--executor-cores 2 \
--queue thequeue \
источник

AS

Andrey Smirnov in Moscow Spark
--deploy-mode client  в консоль будет писать все, попробуй
источник

ЕГ

Евгений Глотов... in Moscow Spark
По идее, такого экзекутора должно хватать вообще на всё
источник

AM

Artem Muravlev in Moscow Spark
Фиг его знает, уже неделю толкусь на одном месте
источник

AM

Artem Muravlev in Moscow Spark
Andrey Smirnov
--deploy-mode client  в консоль будет писать все, попробуй
пробую клиент
источник

AM

Artem Muravlev in Moscow Spark
мои конфы с yarn-site.xml.

 <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>hadtest1</value>
 </property>

 <property>
       <name>yarn.nodemanager.resource.memory-mb</name>
       <value>14336</value>
 </property>

 <property>
       <name>yarn.nodemanager.resource.cpu-vcores</name>
       <value>3</value>
 </property>

 <property>
       <name>yarn.scheduler.maximum-allocation-mb</name>
       <value>14336</value>
 </property>

 <property>
       <name>yarn.scheduler.maximum-allocation-vcores</name>
       <value>3</value>
 </property>

 <property>
       <name>yarn.nodemanager.vmem-check-enabled</name>
       <value>false</value>
 </property>

 <property>
       <name>yarn.nodemanager.local-dirs</name>
       <value>/home/fenix/hadoop_data_dir/yarn</value>
 </property>

 <property>
       <name>yarn.nodemanager.log-dirs</name>
       <value>/home/fenix/hadoop_data_dir/yarn/log</value>
 </property>

 <property>
       <name>yarn.log-aggregation-enable</name>
       <value>true</value>
 </property>

 <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
 </property>
источник

AM

Artem Muravlev in Moscow Spark
Всего памяти 15700 мб и 3 ядра на каждой из нод.
источник

AM

Artem Muravlev in Moscow Spark
На мастере тоже
источник

AM

Artem Muravlev in Moscow Spark
источник

AM

Artem Muravlev in Moscow Spark
Намучился я с RDD. Я так понимаю все на датасетах/датафреймах сидят?
источник

AM

Artem Muravlev in Moscow Spark
Вообщем у меня не хватило места в hdfs) поэтому и отваливался мой executor)))
источник

EV

Eduard Vlasov in Moscow Spark
Оверхед побольше еще попробуйте чтобы gc поменьше был
источник

AM

Artem Muravlev in Moscow Spark
Eduard Vlasov
Оверхед побольше еще попробуйте чтобы gc поменьше был
пока переделываю на graph-frame. Спасибо за подсказку, сейчас попробую юзнуть
источник
2019 March 13

PK

Pavel Klemenkov in Moscow Spark
О, я совсем пропустил это, но вот отличная новость. Некоторые из вас, наверняка, знают про Project Hydrogen - это такая инициатива по “бесшовному” связыванию Спарка и фреймворков распределенного обучения, например Horovod. В версии 2.4 появился Barrier execution mode, а 1 января Uber, оказывается, зарелизил вот эту штучку https://github.com/horovod/horovod/blob/master/docs/spark.md
источник

PK

Pavel Klemenkov in Moscow Spark
Кто-то пробовал?
источник

PK

Pavel Klemenkov in Moscow Spark
Поподробней про Project Hydrogen тут https://www.youtube.com/watch?v=vVZwzG7uKvI
источник
2019 March 14

R

Rogoley in Moscow Spark
Кто-нибудь прикручивал IntelliJ/Scala на маке (пофиг на чем, на самом деле) к спарку, который в кластере? Ноут в той же сети, что и кластер. Может туториал какой внятный есть?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Конфиг спарка просто настроить
источник

ЕГ

Евгений Глотов... in Moscow Spark
Hive-site, hdfs-site
источник

ЕГ

Евгений Глотов... in Moscow Spark
И всё такое
источник