Size: a a a

2019 February 26

AA

Anton Alekseev in Moscow Spark
Подскажите куда копать. Вычитываю большой csv из hdfs, прежде чем начнётся обсчет по партициям и по всем свободным ядрам, несколько минут идёт загрузка в 1 ядро (Мониторю на ганглии). При этом минимальный сетевой трафик бегает (опять же по ганглии). В джобах на web в спарке значится как завершённое чтение csv. Но по логам вижу что до следующей стадии ещё не дошёл. В логах, служебка бегает об аккумуляторах, да про броадкаст частей. Что под капотом происходит, можно ускорить процесс?
источник

N

Nikolay in Moscow Spark
Может схема определяется ?
источник

N

Nikolay in Moscow Spark
Inferschema если в true, то он читает ещё весь файл что бы определить схему
источник

AA

Anton Alekseev in Moscow Spark
Nikolay
Может схема определяется ?
Да, тоже об этом подумал. Так он в одно cpu это проворачивает?
источник

AA

Anton Alekseev in Moscow Spark
окей, понял
источник

PK

Pavel Klemenkov in Moscow Spark
Nikolay
Inferschema если в true, то он читает ещё весь файл что бы определить схему
Почему весь? Сэмпл же берётся
источник

N

Nikolay in Moscow Spark
Pavel Klemenkov
Почему весь? Сэмпл же берётся
Нет. Он весь читает . Мы тут разбирали это.
источник

AA

Anton Alekseev in Moscow Spark
Pavel Klemenkov
Почему весь? Сэмпл же берётся
samplingRatio – defines fraction of rows used for schema inferring. If None is set, it uses the default value, 1.0.
источник

PK

Pavel Klemenkov in Moscow Spark
Ммм, вкусняшка
источник

ЕГ

Евгений Глотов... in Moscow Spark
А почему в одно ядро? Файл меньше размера блока?
источник

AA

Anton Alekseev in Moscow Spark
У меня жирный csv (> 10.000cols), может в этом быть причина?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Кто вам такой выдал?)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Может проще попинать, чтоб выдали что-нибудь получше?)
источник

AA

Anton Alekseev in Moscow Spark
Евгений Глотов
Кто вам такой выдал?)
аахха, уже раз 10 поднимали эту тему)) Я даже нормальный быстрый melt написал))
источник

AA

Anton Alekseev in Moscow Spark
Евгений Глотов
Может проще попинать, чтоб выдали что-нибудь получше?)
Я во всех направления потихоньку ресечу, как ускорить)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну, это будет максимально быстро)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Когда уже будут все типы проставлены)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Особенно на 10к колонок
источник

AA

Anton Alekseev in Moscow Spark
Nikolay
Может схема определяется ?
Отключил, таже петрушка. Вот на этом этапе затыкается INFO FileSourceStrategy: Pruning directories with:
источник

ЕГ

Евгений Глотов... in Moscow Spark
А там точно один файл?)
источник