Телеграмм чат группы moscowspark страница 729

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1138 membersпожаловаться на группу

2021 July 23

ЕГ

Евгений Глотов... in Moscow Spark

При джойне нужно эти 5тб разместить в темп

источник

20:25пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

У вас свободного темп на кластере 6гб

источник

20:25пожаловаться #2

ЕГ

Евгений Глотов... in Moscow Spark

При 90% забитии дисков начинают с кластера отваливаться ярн ноды

источник

20:26пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

У вас забитие 146%

источник

20:26пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Читайте таблицы кусками по 50гб, может отсчитается

источник

20:26пожаловаться #5

VI

Vladimir Ilyushkin in Moscow Spark

Они не партицированные

источник

20:29пожаловаться #6

VI

Vladimir Ilyushkin in Moscow Spark

Цельный паркет

источник

20:29пожаловаться #7

VI

Vladimir Ilyushkin in Moscow Spark

Как ни крути это ресурсы

источник

20:31пожаловаться #8

VI

Vladimir Ilyushkin in Moscow Spark

Спасибо коллеги

источник

20:31пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Можно пофайлово читать

источник

20:31пожаловаться #10

VI

Vladimir Ilyushkin in Moscow Spark

Не умею

источник

20:34пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Научиться быстрее, чем закупить новые ноды в кластер)

источник

20:36пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Просто нужно сформировать список файлов в хдфс в папке конкретной таблицы

источник

20:36пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Разбить его в питончике на части например

источник

20:36пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

И считать эти части

источник

20:36пожаловаться #15

VI

Vladimir Ilyushkin in Moscow Spark

Идею понял спасибо

источник

20:45пожаловаться #16

М

Мохаммад Реза... in Moscow Spark

No change...
jedisConfig.setMaxWaitMillis(500)
jedisConfig.setMaxWaitMillis(8000)

источник

21:43пожаловаться #17

2021 July 26

ИТ

Илья Ткачев... in Moscow Spark

Привет, есть возможные решения? spark 2.4.4

источник

12:46пожаловаться #18

ИТ

Илья Ткачев... in Moscow Spark

Переслано от Илья Ткачев...

Знатоки спарка подскажите пожалуйста как можно решить такую проблему.

Есть большой граф вычислений с кучей join/groupby и прочего. На одном из stage непонятно с чем связанного (по картинке графа вычислений это не join) жуткий перекос в данных, одна таска принимает слишком много.

Как мне проще всего найти нужный проблемый stage, чтобы прооптимизировать его?

пока самый тупой вариант вижу навешивать сохранение на диск после каждого groupby и join, чтобы найти эту операцию. Но он довольно долгий.

есть еще такая вещь как sparkContext.setJobGroup , но она сетит лейбл в ui для целой джобы, но для stage нельзя такое нельзя разметить

источник

12:46пожаловаться #19

N

Nail in Moscow Spark

Знакомая проблема. Тоже хотел бы узнать кто как решает. Я делал по описанному тупому варианту, правда не после каждого джоина сохранял, а примерно вычислил на каком этапе, и сохранял примерно "возле" проблемной операции.

источник

13:00пожаловаться #20