Телеграмм чат группы moscowspark страница 133

У меня бывали случаи, когда на 2000 батч сайз падало с 8гб оперативы, а на 500 не падало, например, между ними не смотрел, сколько надо, но общий принцип - чем больше мы раздуваем внутри, тем меньше батч)

источник

15:01пожаловаться #8

KS

Kostya Shchetkin in Moscow Spark

короче я лох, пытался апплаить построчно, а надо было собрать из батча матрицу и на нее апплаить

источник

19:09пожаловаться #9

2019 May 31

G

Gev in Moscow Spark

Народ. Подскажите. Мне надо сконвертить данные из aveo в orc. Я читаю в dataframe используя ds = sparksession...load(hdfs:/file.avro). Потом пишу эти даанные ds...save(hdfs:/) и эта зараза падает с ошибкой при записи : На устройстве не осталось свободного места. Это оно про какое устройство? Оно локально что то сохраняет? Где мне ему места дать?

источник

19:05пожаловаться #10

PK

Pavel Klemenkov in Moscow Spark

Gev

Народ. Подскажите. Мне надо сконвертить данные из aveo в orc. Я читаю в dataframe используя ds = sparksession...load(hdfs:/file.avro). Потом пишу эти даанные ds...save(hdfs:/) и эта зараза падает с ошибкой при записи : На устройстве не осталось свободного места. Это оно про какое устройство? Оно локально что то сохраняет? Где мне ему места дать?

Да нет, в hdfs места нема

источник

19:07пожаловаться #11

VS

Vadim Sukhanov in Moscow Spark

Всем привет
Есть джоба в которой делается несколько инструкций SparkSession.sql вида insert … select.
в какой то момент джоба стабильно подвисает и дальше ничего не происходит, в логах никаких признаков проблемы не видно, последнее что вываливается в консоль и на этом висит :
NFO BlockManagerInfo: Removed broadcast_2_piece0 on node in memory (size: 1952.4 KB, free: 366.3 MB)

Если запросы выполнять в разных джобах - все отрабатывает.

Подскажите куда копать

источник

19:08пожаловаться #12

G

Gev in Moscow Spark

Pavel Klemenkov

Да нет, в hdfs места нема

Это страннотно проверю. Спасибо

источник

19:11пожаловаться #13

N

Nikolay in Moscow Spark

Vadim Sukhanov

Всем привет
Есть джоба в которой делается несколько инструкций SparkSession.sql вида insert … select.
в какой то момент джоба стабильно подвисает и дальше ничего не происходит, в логах никаких признаков проблемы не видно, последнее что вываливается в консоль и на этом висит :
NFO BlockManagerInfo: Removed broadcast_2_piece0 on node in memory (size: 1952.4 KB, free: 366.3 MB)

Если запросы выполнять в разных джобах - все отрабатывает.

Подскажите куда копать

Не понятно , что именно у тебя происходит .у тебя выполняется sql вида insert sekect ?

источник

19:36пожаловаться #14

VS

Vadim Sukhanov in Moscow Spark

да insert into one table select from another_table

источник

19:51пожаловаться #15

N

Nikolay in Moscow Spark

А в какую базу ты вставляешь ? Если в oracle, то можно узнать прошла вставка в базе или нет

источник

21:07пожаловаться #16

2019 June 04

K

KrivdaTheTriewe in Moscow Spark

http://spark.apache.org/news/plan-for-dropping-python-2-support.html

источник

11:33пожаловаться #17

K

KrivdaTheTriewe in Moscow Spark

Продолжаем праздновать

источник

11:33пожаловаться #18

2019 June 11

PK

Pavel Klemenkov in Moscow Spark

Всем привет. Давно не слышались. Я, на досуге, просматриваю видео с прошедшего Spark Summit. Видосы, кстати, доступны на канале Databricks https://www.youtube.com/channel/UC3q8O3Bh2Le8Rj1-Q-_UUbA/videos. Плейлиста пока нет, поэтому лучше открыть программу https://databricks.com/sparkaisummit/north-america/schedule-static-image и искать по названию. Так вот, буду с вами делиться понравившимися выступлениями.

YouTube

Databricks

Databricks is the data and AI company. Thousands of organizations worldwide — including Comcast, Condé Nast, Nationwide and H&M — rely on Databricks’ open an...

источник

15:20пожаловаться #19

PK

Pavel Klemenkov in Moscow Spark

И первое выступление Daniel Tomes (Databricks) Apache Spark Core—Deep Dive—Proper Optimization. Я, если честно, ждал этого выступления, потому что тема оптимизации Спарка для меня очень интересна, мне часто задают вопросы по этой теме и я перелопатил довольно много материалов. Так вот все они довольно поверхностные, в стиле капитана очевидность. Да и вообще по оптимизации довольно мало материала. Даже книжка Холдена High Perofrmance Spark какая-то ниочемная. В общем этого выступления я ждал и не разочарован. Наверное это первый материал, в котором, например, нормально рассказывают про UI, куда смотреть и на что обращать внимание. Много технических деталей, например про spill на диск. Но и практических советов предостаточно. В общем highly recomend. При этом материал действительно advanced, поэтому хорошее понимание кишочек - важно https://www.youtube.com/watch?v=daXEp4HmS-E

YouTube

Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks

Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What is the "right" size for your spark partitions and files? Why does a job slow down with only a few tasks left and never finish? Why doesn't adding nodes decrease my compute time?

About: Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform

Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
LinkedIn: https://www.linkedin.com/company/databricks
Instagram: https://www.instagram.com/databricksinc/

источник

15:26пожаловаться #20