Телеграмм чат группы hadoopusers страница 3635

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2452 membersпожаловаться на группу

2021 May 12

ЕГ

Евгений Глотов... in Data Engineers

Или нет?

источник

11:09пожаловаться #1

D

Dmitry in Data Engineers

обычно там где падает 1000-2000 тасков

источник

11:10пожаловаться #2

А

Алексей in Data Engineers

да, шафл партишен увеличьте, должно помочь

источник

11:12пожаловаться #3

ЕГ

Евгений Глотов... in Data Engineers

1000 тасков падает?

источник

11:22пожаловаться #4

ЕГ

Евгений Глотов... in Data Engineers

Или всего 1000 тасков

источник

11:22пожаловаться #5

ЕГ

Евгений Глотов... in Data Engineers

Если шафл партишен не установлен на 1000, то 1000 тасков - это не джойн, не групбай и не окно, это обычный мап таск на чтение данных

источник

11:27пожаловаться #6

ЕГ

Евгений Глотов... in Data Engineers

Если он падает с оом, то это может быть например чтение здоровых json.gz

источник

11:28пожаловаться #7

ЕГ

Евгений Глотов... in Data Engineers

Читает мало данных, распаковывает, умирает под завалом)

источник

11:28пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

Можно логику на эирфлоу написать :)

источник

11:29пожаловаться #9

D

Dmitry in Data Engineers

когда подкручиваю память из 1000-2000 тасков несколько десятков падает, при рестарте проходят. читают gz.parquet

источник

11:32пожаловаться #10

ЕГ

Евгений Глотов... in Data Engineers

Может размер страйпа слишком большой установлен?

источник

11:35пожаловаться #11

ЕГ

Евгений Глотов... in Data Engineers

А там в одной из колонок какие-нибудь строки бесконечной длины

источник

11:35пожаловаться #12

ЕГ

Евгений Глотов... in Data Engineers

А дальше-то джойн в 200 тасков делается?

источник

11:36пожаловаться #13

D

Dmitry in Data Engineers

сейчас перепроверю

источник

12:01пожаловаться #14

D

Dmitry in Data Engineers

хм, данные чуть изменились уже и планы вроде другие. теперь вообще обсурдный план выходит

источник

12:32пожаловаться #15

D

Dmitry in Data Engineers

источник

12:32пожаловаться #16

D

Dmitry in Data Engineers

но у меня собственно глобальный вопрос, а как же с таким работать ? что на тему памяти выставлять зепелину ? что hive on spark ? я же не знаю кто и что там соберется анализировать.

источник

12:38пожаловаться #17

ЕГ

Евгений Глотов... in Data Engineers

А джойн-то где

источник

12:47пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

Лучше всего выкинуть хайв он спарк в мусорку

источник

12:48пожаловаться #19

ЕГ

Евгений Глотов... in Data Engineers

И в цеппелин настроить нормальный спарк интерпретатор

источник

12:49пожаловаться #20