Size: a a a

2019 May 30

KS

Kostya Shchetkin in Moscow Spark
10k ->500k->5k->50k )
источник

ЕГ

Евгений Глотов... in Moscow Spark
А попробуйте 100
источник

KS

Kostya Shchetkin in Moscow Spark
сделал coalesce(5), спарк задумался
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там ведь внутри юдф раздувается матрица какая-то большая решейпом?
источник

KS

Kostya Shchetkin in Moscow Spark
да
источник

ЕГ

Евгений Глотов... in Moscow Spark
А вообще рекомендую grouped_map, проще будет ориентироваться, потому что группы создаёте вы сами
источник

KS

Kostya Shchetkin in Moscow Spark
странно, что я схлопнул партиции и перестали таски фейлится
источник

ЕГ

Евгений Глотов... in Moscow Spark
У меня бывали случаи, когда на 2000 батч сайз падало с 8гб оперативы, а на 500 не падало, например, между ними не смотрел, сколько надо, но общий принцип - чем больше мы раздуваем внутри, тем меньше батч)
источник

KS

Kostya Shchetkin in Moscow Spark
короче я лох, пытался апплаить построчно,  а надо было собрать из батча матрицу и на нее апплаить
источник
2019 May 31

G

Gev in Moscow Spark
Народ. Подскажите. Мне надо сконвертить данные из aveo в orc. Я читаю в dataframe используя ds = sparksession...load(hdfs:/file.avro). Потом пишу эти даанные ds...save(hdfs:/)  и эта зараза падает с ошибкой при записи : На устройстве не осталось свободного места. Это оно про какое устройство? Оно локально что то сохраняет? Где мне ему места дать?
источник

PK

Pavel Klemenkov in Moscow Spark
Gev
Народ. Подскажите. Мне надо сконвертить данные из aveo в orc. Я читаю в dataframe используя ds = sparksession...load(hdfs:/file.avro). Потом пишу эти даанные ds...save(hdfs:/)  и эта зараза падает с ошибкой при записи : На устройстве не осталось свободного места. Это оно про какое устройство? Оно локально что то сохраняет? Где мне ему места дать?
Да нет, в hdfs места нема
источник

VS

Vadim Sukhanov in Moscow Spark
Всем привет
Есть джоба в которой делается несколько инструкций SparkSession.sql вида insert … select.
в какой то момент джоба стабильно подвисает и дальше ничего не происходит, в логах никаких признаков проблемы не видно, последнее что вываливается в консоль и на этом висит :
NFO BlockManagerInfo: Removed broadcast_2_piece0 on node in memory (size: 1952.4 KB, free: 366.3 MB)

Если запросы выполнять в разных джобах - все отрабатывает.

Подскажите куда копать
источник

G

Gev in Moscow Spark
Pavel Klemenkov
Да нет, в hdfs места нема
Это страннотно проверю. Спасибо
источник

N

Nikolay in Moscow Spark
Vadim Sukhanov
Всем привет
Есть джоба в которой делается несколько инструкций SparkSession.sql вида insert … select.
в какой то момент джоба стабильно подвисает и дальше ничего не происходит, в логах никаких признаков проблемы не видно, последнее что вываливается в консоль и на этом висит :
NFO BlockManagerInfo: Removed broadcast_2_piece0 on node in memory (size: 1952.4 KB, free: 366.3 MB)

Если запросы выполнять в разных джобах - все отрабатывает.

Подскажите куда копать
Не понятно , что именно у тебя происходит .у тебя выполняется sql вида insert sekect ?
источник

VS

Vadim Sukhanov in Moscow Spark
да insert into one table select from another_table
источник

N

Nikolay in Moscow Spark
А в какую базу ты вставляешь ? Если в oracle, то можно узнать прошла вставка в базе или нет
источник
2019 June 04

K

KrivdaTheTriewe in Moscow Spark
источник

K

KrivdaTheTriewe in Moscow Spark
Продолжаем праздновать
источник
2019 June 11

PK

Pavel Klemenkov in Moscow Spark
Всем привет. Давно не слышались. Я, на досуге, просматриваю видео с прошедшего Spark Summit. Видосы, кстати, доступны на канале Databricks https://www.youtube.com/channel/UC3q8O3Bh2Le8Rj1-Q-_UUbA/videos. Плейлиста пока нет, поэтому лучше открыть программу https://databricks.com/sparkaisummit/north-america/schedule-static-image и искать по названию. Так вот, буду с вами делиться понравившимися выступлениями.
источник

PK

Pavel Klemenkov in Moscow Spark
И первое выступление Daniel Tomes (Databricks) Apache Spark Core—Deep Dive—Proper Optimization. Я, если честно, ждал этого выступления, потому что тема оптимизации Спарка для меня очень интересна, мне часто задают вопросы по этой теме и я перелопатил довольно много материалов. Так вот все они довольно поверхностные, в стиле капитана очевидность. Да и вообще по оптимизации довольно мало материала. Даже книжка Холдена High Perofrmance Spark какая-то ниочемная. В общем этого выступления я ждал и не разочарован. Наверное это первый материал, в котором, например, нормально рассказывают про UI, куда смотреть и на что обращать внимание. Много технических деталей, например про spill на диск. Но и практических советов предостаточно. В общем highly recomend. При этом материал действительно advanced, поэтому хорошее понимание кишочек - важно https://www.youtube.com/watch?v=daXEp4HmS-E
источник