Телеграмм чат группы hadoopusers страница 1634

00:13пожаловаться #1

2019 September 23

N

Nikolay in Data Engineers

Anton Zadorozhniy

кафка это СР система, это значит что когда сеть падает вы можете продолжать читать и писать пока у вас удовлетворяется условие min in-sync replicas

P - это ведь устойчивость к расщеплению. А как можно расщепить кластер Кафка ? Вот у меня , допустим 5 нод. Могу ли я расщепить на 2 кластера , соответственно по 2 и 3 ноды и что бы они продолжали работать?

12:26пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

Nikolay

P - это ведь устойчивость к расщеплению. А как можно расщепить кластер Кафка ? Вот у меня , допустим 5 нод. Могу ли я расщепить на 2 кластера , соответственно по 2 и 3 ноды и что бы они продолжали работать?

кафка полагается на другую СР систему для членства в кластере и выборах контроллера (зукипер), поэтому группа связаных с ЗК узлов будет пытаться сформировать кластер, а несвязанные - не будут работать

12:28пожаловаться #3

N

Nikolay in Data Engineers

Если не будет работать , то это не P система. Надо же ,что бы работали оба расшепленных куска

12:30пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Nikolay

Если не будет работать , то это не P система. Надо же ,что бы работали оба расшепленных куска

она не полностью Р конечно, и также в этом смысле она не А

Паша Финкельштейн in Data Engineers

12:31пожаловаться #5

ПФ

Nikolay

P - это ведь устойчивость к расщеплению. А как можно расщепить кластер Кафка ? Вот у меня , допустим 5 нод. Могу ли я расщепить на 2 кластера , соответственно по 2 и 3 ноды и что бы они продолжали работать?

А можешь на два сегмента по две ноды и ещё один с одной

Паша Финкельштейн in Data Engineers

12:42пожаловаться #6

ПФ

При этом узлы Кафки могут видеть все всех, но зукипер внешний может видеть ситуацию иначе

12:43пожаловаться #7

R

Renarde in Data Engineers

Сап чат. Вопрос не совсем по DE, но вдруг кто такое делал.
Суть - ест maven проект, внутри которого всякий SQL мутится, пайплайны крутятся. Один из SQL-файлов нужно сгенерировать из кейс-классов и сохранить в target-директорию во время билда. Как такое делается в Maven?

13:14пожаловаться #8

A

Alex in Data Engineers

плагин и указываешь на каком степе запускать его

13:31пожаловаться #9

RI

Инженеры. Как можно посмотреть bottleneck у спарк джоб? Есть ли у yarn UI какие-нибудь приспособы, чтобы посмотреть что не так.

17:02пожаловаться #10

NI

Rustam Iksanov

Инженеры. Как можно посмотреть bottleneck у спарк джоб? Есть ли у yarn UI какие-нибудь приспособы, чтобы посмотреть что не так.

Смотрите в спарковский дашборд, а не в yarn

17:04пожаловаться #11

NI

Сможете посмотреть какие таски, какой объем данных гоняется, и тд

17:04пожаловаться #12

RI

Nikolay Ivanov

Смотрите в спарковский дашборд, а не в yarn

Можно поточнее. Это про spark history server? Там есть jobs, stages, sql

17:05пожаловаться #13

NI

В yarn ui на вкладке с приложением есть ссылка Tracking URL

17:07пожаловаться #14

NI

Да, там jobs, stages и так далее

17:07пожаловаться #15

AP

Alexander Piminov in Data Engineers

Rustam Iksanov

Можно поточнее. Это про spark history server? Там есть jobs, stages, sql

В History попадают завершенные задачи, а активные - в Spark UI (на 404x порту), если из-под YARN, то он проксируется ссылкой на Application Master.

17:08пожаловаться #16

RI

до туда я дошел. Просто он быстро прогоняет различные job. А на action начинает ранить кучу джобов для материализации. А потом падает или по GC overhead или длинными тредами оптимизации запросов(timeout on promise). Вот я и пытаюсь разобраться, какой именно stage вызывает такие проблемы.

17:10пожаловаться #17

NI

Если появляется исключение, скажем, вы его видите в логах драйвера, то в Spark UI вы сможете увидеть, какая джоба упала, на каком стейдже и в какой таске это исключение вылетает.

17:13пожаловаться #18

NI

Если драйвер завершил свою работу, то же самое вы сможете найти в spark history server

17:14пожаловаться #19

RI

Nikolay Ivanov

Если появляется исключение, скажем, вы его видите в логах драйвера, то в Spark UI вы сможете увидеть, какая джоба упала, на каком стейдже и в какой таске это исключение вылетает.

В том то и дело, что по исключением не очень понятно, где затык. Например,

 org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:
Exchange hashpartitioning(columns)

или

Caused by: java.util.concurrent.TimeoutException: Futures timed out after [300 seconds]
  at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219)