Телеграмм чат группы moscowspark страница 92

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

1
«
…
‹
87
88
89
90
91
92
93
›
…
»

2019 February 26

AA

Anton Alekseev in Moscow Spark

Подскажите куда копать. Вычитываю большой csv из hdfs, прежде чем начнётся обсчет по партициям и по всем свободным ядрам, несколько минут идёт загрузка в 1 ядро (Мониторю на ганглии). При этом минимальный сетевой трафик бегает (опять же по ганглии). В джобах на web в спарке значится как завершённое чтение csv. Но по логам вижу что до следующей стадии ещё не дошёл. В логах, служебка бегает об аккумуляторах, да про броадкаст частей. Что под капотом происходит, можно ускорить процесс?

источник

17:08пожаловаться #1

N

Nikolay in Moscow Spark

Может схема определяется ?

источник

17:14пожаловаться #2

N

Nikolay in Moscow Spark

Inferschema если в true, то он читает ещё весь файл что бы определить схему

источник

17:15пожаловаться #3

AA

Anton Alekseev in Moscow Spark

Nikolay

Может схема определяется ?

Да, тоже об этом подумал. Так он в одно cpu это проворачивает?

источник

17:16пожаловаться #4

AA

Anton Alekseev in Moscow Spark

окей, понял

источник

17:16пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

Nikolay

Inferschema если в true, то он читает ещё весь файл что бы определить схему

Почему весь? Сэмпл же берётся

источник

17:16пожаловаться #6

N

Nikolay in Moscow Spark

Pavel Klemenkov

Почему весь? Сэмпл же берётся

Нет. Он весь читает . Мы тут разбирали это.

источник

17:16пожаловаться #7

AA

Anton Alekseev in Moscow Spark

Pavel Klemenkov

Почему весь? Сэмпл же берётся

samplingRatio – defines fraction of rows used for schema inferring. If None is set, it uses the default value, 1.0.

источник

17:17пожаловаться #8

PK

Pavel Klemenkov in Moscow Spark

Ммм, вкусняшка

источник

17:18пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

А почему в одно ядро? Файл меньше размера блока?

источник

17:19пожаловаться #10

AA

Anton Alekseev in Moscow Spark

У меня жирный csv (> 10.000cols), может в этом быть причина?

источник

17:22пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Кто вам такой выдал?)

источник

17:28пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Может проще попинать, чтоб выдали что-нибудь получше?)

источник

17:28пожаловаться #13

AA

Anton Alekseev in Moscow Spark

Евгений Глотов

Кто вам такой выдал?)

аахха, уже раз 10 поднимали эту тему)) Я даже нормальный быстрый melt написал))

источник

17:29пожаловаться #14

AA

Anton Alekseev in Moscow Spark

Евгений Глотов

Может проще попинать, чтоб выдали что-нибудь получше?)

Я во всех направления потихоньку ресечу, как ускорить)

источник

17:29пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Ну, это будет максимально быстро)

источник

17:30пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Когда уже будут все типы проставлены)

источник

17:30пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Особенно на 10к колонок

источник

17:30пожаловаться #18

AA

Anton Alekseev in Moscow Spark

Nikolay

Может схема определяется ?

Отключил, таже петрушка. Вот на этом этапе затыкается INFO FileSourceStrategy: Pruning directories with:

источник

17:48пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

А там точно один файл?)

источник

18:46пожаловаться #20

1
«
…
‹
87
88
89
90
91
92
93
›
…
»