Телеграмм чат группы hadoopusers страница 1531

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 August 07

AZ

Anton Zadorozhniy in Data Engineers

Инженеры. Продолжаю свои мучения с spark-phoenix. спарк джоба просто встает на этапе записи в феникс. На другом кластере джоба работает без проблем. Через spark-shell запись в феникс происходит. куда копать?

смотреть конфигурации джобов

источник

10:24пожаловаться #1

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

смотреть конфигурации джобов

Можно для неофитов ткнуть носом на что смотреть?

источник

10:29пожаловаться #2

AS

Andrey Star in Data Engineers

Доброе утро!
Spark. Yarn. Horton.
Может кто подскажет, почему на двух разных по размеру и данным кластерах максимум 8 активных stage’ей а остальные в pending ждут?

источник

10:30пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Можно для неофитов ткнуть носом на что смотреть?

зависит от кода вашего джоба, но обычно это HADOOP_CONF, HBASE_CONF в вашем окружении

источник

10:30пожаловаться #4

ПФ

Паша Финкельштейн in Data Engineers

https://www.youtube.com/watch?v=AIxtaroWqBU

Demystifying DataFrame and Dataset - Dr. Kazuaki Ishizaki

"Apache Spark achieves high performance with ease of programming due to a well-balanced design between ease of usage of APIs and the state-of-the-art runtime...

источник

10:30пожаловаться #5

ПФ

Паша Финкельштейн in Data Engineers

акцент доставляет

источник

10:30пожаловаться #6

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

зависит от кода вашего джоба, но обычно это HADOOP_CONF, HBASE_CONF в вашем окружении

Я разве не правильно понимаю, что если их дополнительно не указывать, то они общие для spark job и для spark-shell?

источник

10:33пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Я разве не правильно понимаю, что если их дополнительно не указывать, то они общие для spark job и для spark-shell?

обычно так делают, но я не знаю как у вас джобы запускаются

источник

10:34пожаловаться #8

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

обычно так делают, но я не знаю как у вас джобы запускаются

spark-submit --master yarn --deploy-mode client --class mainClass --executor-memory 5g --driver-memory 5g --num-executors 2 --verbose --jars /usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar --conf spark.driver.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark2.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar --conf spark.executor.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar /path/fat.jar -Dpar1=val1 -Dpar2=val2

при этом spark-shell тоже запускаю с extraClassPath

источник

10:45пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

spark-submit --master yarn --deploy-mode client --class mainClass --executor-memory 5g --driver-memory 5g --num-executors 2 --verbose --jars /usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar --conf spark.driver.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark2.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar --conf spark.executor.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar:/usr/hdp/current/phoenix-client/phoenix-client.jar:/usr/hdp/current/phoenix-client/phoenix-spark-4.14.1-HBase-1.1.jar /path/fat.jar -Dpar1=val1 -Dpar2=val2

при этом spark-shell тоже запускаю с extraClassPath

в коде джоба может быть какая-то работа с конфигурацией перед созданием контекста

источник

10:46пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

просто если вы говорите что у вас идентичные кластера, на одном джоб работает, на другом нет, и запись через spark-shell работает на обоих, то единственное что может быть не так - это параметры джоба при запуске

источник

10:48пожаловаться #11

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

в коде джоба может быть какая-то работа с конфигурацией перед созданием контекста

Сейчас получил новую ошибку. java.sql.SQLException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Can't get the location for replica 0

источник

10:48пожаловаться #12

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

просто если вы говорите что у вас идентичные кластера, на одном джоб работает, на другом нет, и запись через spark-shell работает на обоих, то единственное что может быть не так - это параметры джоба при запуске

кластера не очень идентичные. Но версии HDP схожие.

источник

10:48пожаловаться #13

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

просто если вы говорите что у вас идентичные кластера, на одном джоб работает, на другом нет, и запись через spark-shell работает на обоих, то единственное что может быть не так - это параметры джоба при запуске

Я опираюсь на то, что spark-shell записывает данные

источник

10:49пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

кластера не очень идентичные. Но версии HDP схожие.

тогда вам нужно попросить помощи старших (по званию) товарищей, это кроличья нора чтобы отлаживать через чат с 1400 участниками, без доступа к кластеру

источник

10:50пожаловаться #15

RI

Rustam Iksanov in Data Engineers

Anton Zadorozhniy

тогда вам нужно попросить помощи старших (по званию) товарищей, это кроличья нора чтобы отлаживать через чат с 1400 участниками, без доступа к кластеру

Да, спасибо за помощь

источник

10:50пожаловаться #16

ДД

Дмитрий Демитов in Data Engineers

Помогите люди добрые с HDP 3.1 и Kerberos
при попытке включить поддержку Kerberos получаю ошибку:
kadmin: Matching credential not found (filename: /tmp/ambari_krb_6539158400110075864cc) while initializing kadmin interface.
кластер уснатовлен на одном хосте, KDC на этой же машине.

на hortonworks нашел, что ambari пробует аутентифицироваться вот так:
kinit -S kadmin/<FQDN kadmin server>@EXAMPLE.COM admin/admin@EXAMPLE.COM

и он получает билет, а ambari выдает ошибку

источник

11:32пожаловаться #17

EN

Eldar Nezametdinov in Data Engineers

Дата инженеры!
Часть1.
Как понять сколько надо phoenix query server (PQS) на кластере?
Влияет на это количество воркеров в джобах?
Или их нужно ставить только там, где есть Region Server HBase ?

Часть 2.
Как понять в чем затык при работе с феникс.
Сейчас по 87млн записей, чтение + лимит + шоу занимает около 10м. Как-то долговато....

источник

14:33пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Eldar Nezametdinov

Дата инженеры!
Часть1.
Как понять сколько надо phoenix query server (PQS) на кластере?
Влияет на это количество воркеров в джобах?
Или их нужно ставить только там, где есть Region Server HBase ?

Часть 2.
Как понять в чем затык при работе с феникс.
Сейчас по 87млн записей, чтение + лимит + шоу занимает около 10м. Как-то долговато....

если речь идет о работе через Spark, то PQS для этого не используется, phoenix-spark общается напрямую с HBase, а PQS нужен для работы тонких клиентов

источник

14:36пожаловаться #19

EN

Eldar Nezametdinov in Data Engineers

О, спасибо.

источник

14:39пожаловаться #20