Size: a a a

2021 July 09

KR

Kagermanov Ramazan in Moscow Spark
Тоже верно
Просто подумал, что из ров по идее он ничего кроме фрейма не может сделать и сам определит
источник

ИК

Иван Калининский... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
Спарк не воспринял параметр «spark.buffer.pageSize», похоже там всё же есть какая-то другая константа, и данные аккуратно прибавляются к шестидесяти четырем мегабайтам непонятно чего))
Кроме того, когда спарку был дан выбор, он мог сделать merge join, мог нормально забродкастить малую часть, но во многих случаях почему-то бродкастил большую часть, и, походу, был счастлив.
В конце концов в одном месте я отключил бродкаст, походу, без него заметно лучше, а я и не ожидал
источник

N

Nail in Moscow Spark
На обоих картинках таблицы вроде броадкастятся, не?
источник

N

Nail in Moscow Spark
Непонятно
источник

ИК

Иван Калининский... in Moscow Spark
Тёк и есть, я про самый нижний синий прямоугольник, в котором data size (bytes). Я наивно надеялся, что сделав бродкасты всё будет быстро и легко, но когда два лонга превращаются в 64 мегабайта, то это и не быстро и легко, а смертельно для любого heap((
источник

N

Nail in Moscow Spark
Я про вторую часть вашего предложения, где он броадкастил бо́льшую таблицу. Хотелось бы это увидеть и понять почему так
источник

ИК

Иван Калининский... in Moscow Spark
На первой картинке выбрано 4 (четыре) числа типа Long общим размером 158 байт. Каким образом они распухли в тысячи раз, мне неясно.
источник

ИК

Иван Калининский... in Moscow Spark
Ну, не сохранил для истории, там пришлось бы кое что скрыть на скрине
источник

ИК

Иван Калининский... in Moscow Spark
И всё же, я уверен, что видел, как бродкастилась большая, а не меньшая часть и там были уже 300-500+мб структуры
источник

ИК

Иван Калининский... in Moscow Spark
Ну ладно, справедливости ради, это был BigDecimal, но всё же, 64 мб многовато ^^
источник
2021 July 11

ЕГ

Евгений Глотов... in Moscow Spark
Бывали случаи, когда джойнил 10 терабайт на справочник, и спарк броадкастил 10 терабайт)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Полечилось то ли репартишеном посередине, то ли вообще тупо сохранением в промежуточную таблицу куска подзапроса
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не помню уже
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Привет, Миша :)
источник
2021 July 14

НК

Николай Крупий... in Moscow Spark
Telegram
AI Meetups
"Spark ML pipelines under the hood"
15 июля, четверг, 18.00 по Москве
Онлайн

"Крупные компании развивают Data Science-направление в своих проектах. Это становится необходимым для предсказания прибыли для бизнеса, для настройки таргетированной рекламы, построении системы рекомендаций и многое другое.
Data-инженеры знают: данные для построения ML-моделей обычно весят сотни гигабайт. В этом случае часто непонятно как работать с таким количеством данных, как генерировать признаки и обучать модели, а также интегрировать работу между Data-инженерами и Data Science-командой.

На митапе я расскажу о процессе обучения модели при помощи библиотеки Spark ML Lib. В докладе мы обсудим базовые возможности библиотеки, способы интеграции нескольких языков программирования в рамках одного процесса обучения + варианты использования базовых классов Spark ML для реализации собственных модулей обработки данных.
На митапе мы также разыграем специальный приз за лучший вопрос по теме."
источник

AB

Andrey Bel in Moscow Spark
Спасибо за митап, тема интересная, один момент тут Указано начало в 18 а на сайте 15
источник

N

Nikita Blagodarnyy in Moscow Spark
UTC?
источник

AB

Andrey Bel in Moscow Spark
Не, написан gmt+3
источник