Size: a a a

2021 December 06

ЕГ

Евгений Глотов... in Moscow Spark
У меня сложилось впечатление, что он вообще нихрена не работает
источник

VI

Vladimir Ilyushkin in Moscow Spark
Есть такое
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если у кого-то есть история успеха, как уменьшить инпут сплит, просьба поделиться)
источник

k

kvadratura in Moscow Spark
разве его можно уменьшить? зависит ведь от того, как row groups записали в паркете
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если 10к рядов меньше, чем 128 мегов, то он должен уменьшать чтение вроде, не?
источник

ЕГ

Евгений Глотов... in Moscow Spark
В смысле минимальный кусок же 10к рядов
источник

ЕГ

Евгений Глотов... in Moscow Spark
А Спарк читает по 128мб
источник

k

kvadratura in Moscow Spark
не совсем понял про минимальный кусок. можно записать паркет, в котором будет только одна row group в 5 gb, например. если паркет с компрессией, эту одну row group придется читать целиком
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну никто же этого не делает почти, а по умолчанию какое количество рядов в этом row_group? По-моему 10к
источник

k

kvadratura in Moscow Spark
> никто

вроде у пандаса по дефолту так и делает. но это не точно. если файл записал не я, то может как угодно быть
источник

ОА

Ольга Антонова... in Moscow Spark
Чатик, привет 😊
Надеюсь я по адресу 🙏

Мы в Skillbox ищем спикеров на курсы Машинное обучение и Deep Learning.

Спикер курса - эксперт уровня middle+, который непосредственно записывает с нами курс: пишет сценарии к урокам, делает презентации и приезжает в студию в Москве на видео запись.

Занятость: 7-10 часов в неделю, модули из программы можно выбрать, опционально.

Преподавание оплачивается. Это проектная, удаленная деятельность, совмещение с основной. Для тех, кто хочет участвовать в формировании качественных образовательных продуктов и делать ИТ-индустрию лучше 🙂

Детальный бриф могу прислать в ЛС. Буду очень благодарна за рекомендации ☺️
источник

A

ANatoly in Moscow Spark
Возвращаясь к моей боли, вот примерно с такой же проблемой столкнулся я (https://stackoverflow.com/questions/32107647/why-is-spark-filling-the-tmp-spark-local-dir-in-the-machine-that-submits-jobs). У проблемы, которую я описывал в других сообщения стояла другая проблема, папка /tmp не чистилась и у меня остальные сессии падали с ошибкой «no space left on device» и я так понял, что такая проблема существует, когда запускаешь spark в режиме local или yarn-client. Вот я и решил делать это через spark.local.dir и сам её чистить.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Слуште, а как бы так заставить спарк исполнять планы огромной глубины?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну типа 256, например :)
источник

k

kvadratura in Moscow Spark
какую ошибку выбрасывает?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
StackOverflowError, конечно :)
источник

k

kvadratura in Moscow Spark
можно весь стэктрейс пож?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Я делаю гадкую вещь: последовательно применяю одно и то же образование к датасету
типа

var myds = …
while(true){
 myds = myds.flatmap()
}
println(myds.count())
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Точно? Как ни сложно догадаться по эксешну он будет длинным
источник

ПФ

Паша Финкельштейн... in Moscow Spark
источник