Size: a a a

2019 August 07

AZ

Anton Zadorozhniy in Data Engineers
Rustam Iksanov
Инженеры. Продолжаю свои мучения с spark-phoenix. спарк джоба просто встает на этапе записи в феникс. На другом кластере джоба работает без проблем. Через spark-shell запись в феникс происходит. куда копать?
смотреть конфигурации джобов
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
смотреть конфигурации джобов
Можно для неофитов ткнуть носом на что смотреть?
источник

AS

Andrey Star in Data Engineers
Доброе утро!
Spark. Yarn. Horton.
Может кто подскажет, почему на двух разных по размеру и данным кластерах максимум 8 активных stage’ей а остальные в pending ждут?
источник

AZ

Anton Zadorozhniy in Data Engineers
Rustam Iksanov
Можно для неофитов ткнуть носом на что смотреть?
зависит от кода вашего джоба, но обычно это HADOOP_CONF, HBASE_CONF в вашем окружении
источник

ПФ

Паша Финкельштейн in Data Engineers
источник

ПФ

Паша Финкельштейн in Data Engineers
акцент доставляет
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
зависит от кода вашего джоба, но обычно это HADOOP_CONF, HBASE_CONF в вашем окружении
Я разве не правильно понимаю, что если их дополнительно не указывать, то они общие для spark job и для spark-shell?
источник

AZ

Anton Zadorozhniy in Data Engineers
Rustam Iksanov
Я разве не правильно понимаю, что если их дополнительно не указывать, то они общие для spark job и для spark-shell?
обычно так делают, но я не знаю как у вас джобы запускаются
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
обычно так делают, но я не знаю как у вас джобы запускаются
spark-submit --master yarn --deploy-mode client --class mainClass --executor-memory 5g --driver-memory 5g --num-executors 2 --verbose --jars /usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar --conf spark.driver.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark2.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar --conf spark.executor.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar /path/fat.jar -Dpar1=val1 -Dpar2=val2

при этом spark-shell тоже запускаю с extraClassPath
источник

AZ

Anton Zadorozhniy in Data Engineers
Rustam Iksanov
spark-submit --master yarn --deploy-mode client --class mainClass --executor-memory 5g --driver-memory 5g --num-executors 2 --verbose --jars /usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar --conf spark.driver.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark2.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar --conf spark.executor.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar /path/fat.jar -Dpar1=val1 -Dpar2=val2

при этом spark-shell тоже запускаю с extraClassPath
в коде джоба может быть какая-то работа с конфигурацией перед созданием контекста
источник

AZ

Anton Zadorozhniy in Data Engineers
просто если вы говорите что у вас идентичные кластера, на одном джоб работает, на другом нет, и запись через spark-shell работает на обоих, то единственное что может быть не так - это параметры джоба при запуске
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
в коде джоба может быть какая-то работа с конфигурацией перед созданием контекста
Сейчас получил новую ошибку. java.sql.SQLException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Can't get the location for replica 0
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
просто если вы говорите что у вас идентичные кластера, на одном джоб работает, на другом нет, и запись через spark-shell работает на обоих, то единственное что может быть не так - это параметры джоба при запуске
кластера не очень идентичные. Но версии HDP схожие.
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
просто если вы говорите что у вас идентичные кластера, на одном джоб работает, на другом нет, и запись через spark-shell работает на обоих, то единственное что может быть не так - это параметры джоба при запуске
Я опираюсь на то, что spark-shell записывает данные
источник

AZ

Anton Zadorozhniy in Data Engineers
Rustam Iksanov
кластера не очень идентичные. Но версии HDP схожие.
тогда вам нужно попросить помощи старших (по званию) товарищей, это кроличья нора чтобы отлаживать через чат с 1400 участниками, без доступа к кластеру
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
тогда вам нужно попросить помощи старших (по званию) товарищей, это кроличья нора чтобы отлаживать через чат с 1400 участниками, без доступа к кластеру
Да, спасибо за помощь
источник

ДД

Дмитрий Демитов in Data Engineers
Помогите люди добрые с HDP 3.1 и Kerberos
при попытке включить поддержку Kerberos получаю ошибку:
kadmin: Matching credential not found (filename: /tmp/ambari_krb_6539158400110075864cc) while initializing kadmin interface.
кластер уснатовлен на одном хосте, KDC на этой же машине.

на hortonworks нашел, что ambari пробует аутентифицироваться вот так:
kinit -S kadmin/<FQDN kadmin server>@EXAMPLE.COM admin/admin@EXAMPLE.COM

и он получает билет, а ambari выдает ошибку
источник

EN

Eldar Nezametdinov in Data Engineers
Дата инженеры!
Часть1.
Как понять сколько надо phoenix query server (PQS) на кластере?
Влияет на это количество воркеров в джобах?
Или их нужно ставить только там, где есть Region Server HBase ?

Часть 2.
Как понять в чем затык при работе с феникс.
Сейчас по 87млн записей, чтение + лимит + шоу занимает около 10м. Как-то долговато....
источник

AZ

Anton Zadorozhniy in Data Engineers
Eldar Nezametdinov
Дата инженеры!
Часть1.
Как понять сколько надо phoenix query server (PQS) на кластере?
Влияет на это количество воркеров в джобах?
Или их нужно ставить только там, где есть Region Server HBase ?

Часть 2.
Как понять в чем затык при работе с феникс.
Сейчас по 87млн записей, чтение + лимит + шоу занимает около 10м. Как-то долговато....
если речь идет о работе через Spark, то PQS для этого не используется, phoenix-spark общается напрямую с HBase, а PQS нужен для работы тонких клиентов
источник

EN

Eldar Nezametdinov in Data Engineers
О, спасибо.
источник