Телеграмм чат группы moscowspark страница 930

не совсем понял про минимальный кусок. можно записать паркет, в котором будет только одна row group в 5 gb, например. если паркет с компрессией, эту одну row group придется читать целиком

источник

13:39пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Ну никто же этого не делает почти, а по умолчанию какое количество рядов в этом row_group? По-моему 10к

источник

13:41пожаловаться #9

kvadratura in Moscow Spark

> никто

вроде у пандаса по дефолту так и делает. но это не точно. если файл записал не я, то может как угодно быть

источник

13:44пожаловаться #10

ОА

Ольга Антонова... in Moscow Spark

Чатик, привет 😊
Надеюсь я по адресу 🙏

Мы в Skillbox ищем спикеров на курсы Машинное обучение и Deep Learning.

Спикер курса - эксперт уровня middle+, который непосредственно записывает с нами курс: пишет сценарии к урокам, делает презентации и приезжает в студию в Москве на видео запись.

Занятость: 7-10 часов в неделю, модули из программы можно выбрать, опционально.

Преподавание оплачивается. Это проектная, удаленная деятельность, совмещение с основной. Для тех, кто хочет участвовать в формировании качественных образовательных продуктов и делать ИТ-индустрию лучше 🙂

Детальный бриф могу прислать в ЛС. Буду очень благодарна за рекомендации ☺️

источник

14:03пожаловаться #11

ANatoly in Moscow Spark

Возвращаясь к моей боли, вот примерно с такой же проблемой столкнулся я (https://stackoverflow.com/questions/32107647/why-is-spark-filling-the-tmp-spark-local-dir-in-the-machine-that-submits-jobs). У проблемы, которую я описывал в других сообщения стояла другая проблема, папка /tmp не чистилась и у меня остальные сессии падали с ошибкой «no space left on device» и я так понял, что такая проблема существует, когда запускаешь spark в режиме local или yarn-client. Вот я и решил делать это через spark.local.dir и сам её чистить.

Stack Overflow

Why is spark filling the tmp (spark.local.dir) in the machine that submits jobs?

I have a spark 1.2.1 cluster set up in standalone mode with a master and a few slaves. I then let my data scientists enjoy the cluster's power.

All is working fine. However, the dedicated server t...

источник

17:23пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

Слуште, а как бы так заставить спарк исполнять планы огромной глубины?

источник

17:53пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

Ну типа 256, например :)

источник

17:54пожаловаться #14

kvadratura in Moscow Spark

какую ошибку выбрасывает?

источник

17:57пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

StackOverflowError, конечно :)

источник

17:57пожаловаться #16

kvadratura in Moscow Spark

можно весь стэктрейс пож?

источник

17:58пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Я делаю гадкую вещь: последовательно применяю одно и то же образование к датасету
типа

var myds = …
while(true){
  myds = myds.flatmap()
}
println(myds.count())

источник

17:59пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Точно? Как ни сложно догадаться по эксешну он будет длинным

источник

17:59пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

https://pastecode.io/s/37d0fomw

источник

18:01пожаловаться #20