Телеграмм чат группы hadoopusers страница 1536

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 August 09

Eldar Nezametdinov in Data Engineers

окей, спасибо большое что ответили....😊
всегда годные есть советы

источник

13:28пожаловаться #1

Anton Zadorozhniy in Data Engineers

Андрей Жуков

(еще надо бы поднять 2.3.2)

history server? оно внутри мейджора вроде было совместимо

источник

13:35пожаловаться #2

Anton Zadorozhniy in Data Engineers

spark это просто YARN приложение, когда вы говорите что у вас на кластере Spark 2.2 это значит что в Classpath лежит дистрибутив этой версии, и где-то запущен Spark History Server и мб Spark Thrift Server той же версии, но вам никто не мешает запускать джобы любых других версий спарка которые совместимы с этой версией YARN (то есть всех внутри Spark2)

источник

13:39пожаловаться #3

ЕГ

Евгений Глотов in Data Engineers

Eldar Nezametdinov

Инженеры!
Подскажите, вкратце,
есть потребность запустить spark2 (2.3.2+) джобы через spark-submit
на hdp 2.6.5 (где сейчас spark2.2)
Еще требования: hive, hbase коннекторы должны работать...
Какие действия надо проделать? Плохо как-то гуглится(

А как вы на хдп2.6.5 умудрились поднять спарк 2.2?

источник

13:40пожаловаться #4

ЕГ

Евгений Глотов in Data Engineers

Там же спарк 2.3

источник

13:41пожаловаться #5

ЕГ

Евгений Глотов in Data Engineers

Из коробки

источник

13:41пожаловаться #6

ЕГ

Евгений Глотов in Data Engineers

Но не 2.3.2, по-моему, более ранний

источник

13:44пожаловаться #7

Eldar Nezametdinov in Data Engineers

Евгений Глотов

А как вы на хдп2.6.5 умудрились поднять спарк 2.2?

да, не 2.6.5, а 2.6.4.. не суть

источник

13:45пожаловаться #8

ЕГ

Евгений Глотов in Data Engineers

Надо на все ноды в одну и ту же папку spark распаковать, и прописать перед сессией SPARK_HOME

источник

13:52пожаловаться #9

АЖ

Андрей Жуков in Data Engineers

Евгений Глотов

Надо на все ноды в одну и ту же папку spark распаковать, и прописать перед сессией SPARK_HOME

Иначе можно прострелить себе чонить

источник

13:54пожаловаться #10

Anton Zadorozhniy in Data Engineers

Евгений Глотов

Надо на все ноды в одну и ту же папку spark распаковать, и прописать перед сессией SPARK_HOME

на все ноды-то зачем?

источник

13:55пожаловаться #11

Alex in Data Engineers

прострелишь точно =) и первое что это будет “shuffle-server”

источник

13:55пожаловаться #12

ЕГ

Евгений Глотов in Data Engineers

Anton Zadorozhniy

на все ноды-то зачем?

Чтобы не ловить потом эксепшены из-за изменения апи спарка с 2.2 до 2.3

источник

13:56пожаловаться #13

ЕГ

Евгений Глотов in Data Engineers

Вернее не апи, а внутрянки как раз

источник

13:58пожаловаться #14

Alex in Data Engineers

@oheldarkaa

офф ветка
https://github.com/apache/spark/blob/branch-2.4/common/network-yarn/src/main/java/org/apache/spark/network/yarn/YarnShuffleService.java#L135

хортон ветка
https://github.com/hortonworks/spark2-release/blob/HDP-3.1.2.1-1-tag/common/network-yarn/src/main/java/org/apache/spark/network/yarn/YarnShuffleService.java#L135

ну и там же у хортона

// Port on which the shuffle server listens for fetch requests
  private static final String SPARK_SHUFFLE_SERVICE_PORT_KEY = "spark.shuffle.service.port";
  private static final int DEFAULT_SPARK_SHUFFLE_SERVICE_PORT = 7447;

дефолтный порт у apache spark кодовой базы 7337

но дефолтные 7337 и spark_shuffle зарезервированы за spark1 в хортон платформе

поэтому если используете дефолт апач спарк, то параметрах запуска джобы обязательно указывать spark.shuffle.service.port=7447

GitHub

apache/spark

Apache Spark. Contribute to apache/spark development by creating an account on GitHub.

источник

14:00пожаловаться #15

Anton Zadorozhniy in Data Engineers

Евгений Глотов

Чтобы не ловить потом эксепшены из-за изменения апи спарка с 2.2 до 2.3

у вас вообще может не быть спарка на всех нодах чтобы запускать джобы, главное чтобы на клиенте все было, ну и пограничные случаи вроде шаффла и необходимости раскидать джары (опять можно с клиента, —jars)

источник

14:09пожаловаться #16

Alex in Data Engineers

так же: все jar хранятся на hdfs, запуск или livy или oozie, там в конфиге указывается spark.yarn.jars/spark.jars с адресами на hdfs

источник

14:12пожаловаться #17

Anton Zadorozhniy in Data Engineers

точно

источник

14:13пожаловаться #18

ЕГ

Евгений Глотов in Data Engineers