Size: a a a

2019 September 22

N

Nikolay in Data Engineers
tenKe
да
Спасибо
источник
2019 September 23

N

Nikolay in Data Engineers
Anton Zadorozhniy
кафка это СР система, это значит что когда сеть падает вы можете продолжать читать и писать пока у вас удовлетворяется условие min in-sync replicas
P - это ведь устойчивость к расщеплению. А как можно расщепить кластер Кафка ? Вот у меня , допустим 5 нод. Могу ли я расщепить на 2 кластера , соответственно по 2 и 3 ноды и что бы они продолжали работать?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
P - это ведь устойчивость к расщеплению. А как можно расщепить кластер Кафка ? Вот у меня , допустим 5 нод. Могу ли я расщепить на 2 кластера , соответственно по 2 и 3 ноды и что бы они продолжали работать?
кафка полагается на другую СР систему для членства в кластере и выборах контроллера (зукипер), поэтому группа связаных с ЗК узлов будет пытаться сформировать кластер, а несвязанные - не будут работать
источник

N

Nikolay in Data Engineers
Если не будет работать , то это не P система. Надо же ,что бы работали оба расшепленных куска
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
Если не будет работать , то это не P система. Надо же ,что бы работали оба расшепленных куска
она не полностью Р конечно, и также в этом смысле она не А
источник

ПФ

Паша Финкельштейн in Data Engineers
Nikolay
P - это ведь устойчивость к расщеплению. А как можно расщепить кластер Кафка ? Вот у меня , допустим 5 нод. Могу ли я расщепить на 2 кластера , соответственно по 2 и 3 ноды и что бы они продолжали работать?
А можешь на два сегмента по две ноды и ещё один с одной
источник

ПФ

Паша Финкельштейн in Data Engineers
При этом узлы Кафки могут видеть все всех, но зукипер внешний может видеть ситуацию иначе
источник

R

Renarde in Data Engineers
Сап чат. Вопрос не совсем по DE, но вдруг кто такое делал.
Суть - ест maven проект, внутри которого всякий SQL мутится, пайплайны крутятся. Один из SQL-файлов нужно сгенерировать из кейс-классов и сохранить в target-директорию во время билда. Как такое делается в Maven?
источник

A

Alex in Data Engineers
плагин и указываешь на каком степе запускать его
источник

RI

Rustam Iksanov in Data Engineers
Инженеры. Как можно посмотреть bottleneck у спарк джоб? Есть ли у yarn UI какие-нибудь приспособы, чтобы посмотреть что не так.
источник

NI

Nikolay Ivanov in Data Engineers
Rustam Iksanov
Инженеры. Как можно посмотреть bottleneck у спарк джоб? Есть ли у yarn UI какие-нибудь приспособы, чтобы посмотреть что не так.
Смотрите в спарковский дашборд, а не в yarn
источник

NI

Nikolay Ivanov in Data Engineers
Сможете посмотреть какие таски, какой объем данных гоняется, и тд
источник

RI

Rustam Iksanov in Data Engineers
Nikolay Ivanov
Смотрите в спарковский дашборд, а не в yarn
Можно поточнее. Это про spark history server? Там есть jobs, stages, sql
источник

NI

Nikolay Ivanov in Data Engineers
В yarn ui на вкладке с приложением есть ссылка Tracking URL
источник

NI

Nikolay Ivanov in Data Engineers
Да, там jobs, stages и так далее
источник

AP

Alexander Piminov in Data Engineers
Rustam Iksanov
Можно поточнее. Это про spark history server? Там есть jobs, stages, sql
В History попадают завершенные задачи, а активные - в Spark UI (на 404x порту), если из-под YARN, то он проксируется ссылкой на Application Master.
источник

RI

Rustam Iksanov in Data Engineers
до туда я дошел. Просто он быстро прогоняет различные job. А на action начинает ранить кучу джобов для материализации. А потом падает или по GC overhead или  длинными тредами оптимизации запросов(timeout on promise). Вот я и пытаюсь разобраться, какой именно stage вызывает такие проблемы.
источник

NI

Nikolay Ivanov in Data Engineers
Если появляется исключение, скажем, вы его видите в логах драйвера, то в Spark UI вы сможете увидеть, какая джоба упала, на каком стейдже и в какой таске это исключение вылетает.
источник

NI

Nikolay Ivanov in Data Engineers
Если драйвер завершил свою работу, то же самое вы сможете найти в spark history server
источник

RI

Rustam Iksanov in Data Engineers
Nikolay Ivanov
Если появляется исключение, скажем, вы его видите в логах драйвера, то в Spark UI вы сможете увидеть, какая джоба упала, на каком стейдже и в какой таске это исключение вылетает.
В том то и дело, что по исключением не очень понятно, где затык. Например,
 org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:
Exchange hashpartitioning(columns)
или
Caused by: java.util.concurrent.TimeoutException: Futures timed out after [300 seconds]
 at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219)
источник