Size: a a a

2019 August 13

GP

Grigory Pomadchin in Data Engineers
сказать по правде это изначально печальная история сабмитиь клиентом отличным от клиента кластера

если с прямолобыми рдд еще можно справиться
то скул и мл ломается даже на минорных апдейтах
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
а в чем проблема возникает?
Проблема в том, что не смотря, что делаешь запуск spark-submit по пути нового спарка, ранится все равно дефолтный
источник

СХ

Старый Хрыч in Data Engineers
особенно часто так берут  редис и монгу
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
Проблема в том, что не смотря, что делаешь запуск spark-submit по пути нового спарка, ранится все равно дефолтный
это как так? ты делаешь ран из папки с новым спарком?
источник

GP

Grigory Pomadchin in Data Engineers
и на чем запускаешь все? ярн или стендэлоун?
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
это как так? ты делаешь ран из папки с новым спарком?
вызываешь spark-submit прямо по пути куда был положен новый спарк( /usr/hdp/current/spark-2.4.3/bin/spark-submit ....)
вызываю на ярне в режиме клиент
источник

GP

Grigory Pomadchin in Data Engineers
а спарк шелл что пишет?
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
а спарк шелл что пишет?
спарк шелл тоже ранит дефолтную версию
источник

GP

Grigory Pomadchin in Data Engineers
а ты из ./bin вызываешь ./spark-shell или spark-shell ?
источник

GP

Grigory Pomadchin in Data Engineers
если spark-shell то похоже с глобалами ты намудрил
./spark-shell точно должен текущую версию дергать // @mitgard00
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
а ты из ./bin вызываешь ./spark-shell или spark-shell ?
Пойду смотреть
источник

AE

Alexey Evdokimov in Data Engineers
Старый Хрыч
как показала моя печальная практика, 70% разрабов берут инструменты вообще не думая
есть такое. многих вопрос "а нахрена вам именно инструмент <X>?" вообще ставит в тупик. типа, все же юзают. а потом оказывается, что эти самые "все" — это ынтузиасты с наколенными поделиями без нагрузки, тестирования и вообще just for fun.

вот и трахаются потом с реальными задачами, где инструмент <X> ни фига не подходил изначально.
источник

UD

Uncel Duk in Data Engineers
Rustam Iksanov
Инженеры! Пытаюсь запустить спарк джобу с использованием другой версии спарк, чем установленна. Действую по этой инструкции https://stackoverflow.com/questions/53928408/how-to-use-different-spark-version-spark-2-4-on-yarn-cluster-deployed-with-spa Но все равно запускается ванильная версия спарка
если в клиентском режиме, просто пихаете спарк и все джарники
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
а ты из ./bin вызываешь ./spark-shell или spark-shell ?
Вроде все глобалы прописал на новый спарк
SPARK_HOME=/usr/hdp/current/spark-2.4.3-bin-hadoop2.7
HADOOP_HOME=/usr/hdp/2.6.4.0-91/hadoop
SPARK_CONF_DIR=/usr/hdp/current/spark2-client/conf
LD_LIBRARY_PATH=/u01/app/oracle/product/11.2.0/client_1/lib:/lib:/usr/lib:/usr/local/lib:/usr/hdp/2.6.4.0-91/hadoop/lib/native
HADOOP_CONF_DIR=/usr/hdp/2.6.4.0-91/hadoop
SPARK_DIST_CLASSPATH=/usr/hdp/current/spark-2.4.3-bin-hadoop2.7
источник

RI

Rustam Iksanov in Data Engineers
Uncel Duk
если в клиентском режиме, просто пихаете спарк и все джарники
клиентский режим это для начала. В планах запуск на кластере.
источник

UD

Uncel Duk in Data Engineers
Ну если у вас хортон, берете например вм, в него всю клиентску обвязку и конфиги, правите скрипты спарка (hadoop_conf_dir, hadoop_home и т.п), добавляете новый спарк с PATH, либо шелл обертку
источник

UD

Uncel Duk in Data Engineers
+ указать спарку в класспаф хоротоновский хадуп
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
Вроде все глобалы прописал на новый спарк
SPARK_HOME=/usr/hdp/current/spark-2.4.3-bin-hadoop2.7
HADOOP_HOME=/usr/hdp/2.6.4.0-91/hadoop
SPARK_CONF_DIR=/usr/hdp/current/spark2-client/conf
LD_LIBRARY_PATH=/u01/app/oracle/product/11.2.0/client_1/lib:/lib:/usr/lib:/usr/local/lib:/usr/hdp/2.6.4.0-91/hadoop/lib/native
HADOOP_CONF_DIR=/usr/hdp/2.6.4.0-91/hadoop
SPARK_DIST_CLASSPATH=/usr/hdp/current/spark-2.4.3-bin-hadoop2.7
Так локально работае или нет?
источник

GP

Grigory Pomadchin in Data Engineers
через относит пути
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
Так локально работае или нет?
нет, локально не работает. при запуске /usr/hdp/current/spark-2.4.3-bin-hadoop2.7/bin/spark-shell ругается на отсутствие Incomplete HDFS URI, no host: hdfs:///spark2-history, хотя настройки взяты штатные. и запускает дефолтный шелл
источник