Телеграмм чат группы moscowspark страница 720

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1123 membersпожаловаться на группу

2021 July 09

KR

Kagermanov Ramazan in Moscow Spark

Тоже верно
Просто подумал, что из ров по идее он ничего кроме фрейма не может сделать и сам определит

источник

15:22пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

источник

19:43пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

источник

19:43пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

Спарк не воспринял параметр «spark.buffer.pageSize», похоже там всё же есть какая-то другая константа, и данные аккуратно прибавляются к шестидесяти четырем мегабайтам непонятно чего))
Кроме того, когда спарку был дан выбор, он мог сделать merge join, мог нормально забродкастить малую часть, но во многих случаях почему-то бродкастил большую часть, и, походу, был счастлив.
В конце концов в одном месте я отключил бродкаст, походу, без него заметно лучше, а я и не ожидал

источник

19:47пожаловаться #4

N

Nail in Moscow Spark

На обоих картинках таблицы вроде броадкастятся, не?

источник

22:39пожаловаться #5

N

Nail in Moscow Spark

Непонятно

источник

22:39пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

Тёк и есть, я про самый нижний синий прямоугольник, в котором data size (bytes). Я наивно надеялся, что сделав бродкасты всё будет быстро и легко, но когда два лонга превращаются в 64 мегабайта, то это и не быстро и легко, а смертельно для любого heap((

источник

22:43пожаловаться #7

N

Nail in Moscow Spark

Я про вторую часть вашего предложения, где он броадкастил бо́льшую таблицу. Хотелось бы это увидеть и понять почему так

источник

22:44пожаловаться #8

ИК

Иван Калининский... in Moscow Spark

На первой картинке выбрано 4 (четыре) числа типа Long общим размером 158 байт. Каким образом они распухли в тысячи раз, мне неясно.

источник

22:46пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

Ну, не сохранил для истории, там пришлось бы кое что скрыть на скрине

источник

22:46пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

И всё же, я уверен, что видел, как бродкастилась большая, а не меньшая часть и там были уже 300-500+мб структуры

источник

22:48пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

Ну ладно, справедливости ради, это был BigDecimal, но всё же, 64 мб многовато ^^

источник

22:53пожаловаться #12

2021 July 11

ЕГ

Евгений Глотов... in Moscow Spark

Бывали случаи, когда джойнил 10 терабайт на справочник, и спарк броадкастил 10 терабайт)

источник

01:15пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Полечилось то ли репартишеном посередине, то ли вообще тупо сохранением в промежуточную таблицу куска подзапроса

источник

01:15пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Не помню уже

источник

01:16пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Привет, Миша :)

источник

16:14пожаловаться #16

2021 July 14

НК

Николай Крупий... in Moscow Spark

https://t.me/AI_meetups/275

"Spark ML pipelines under the hood"
15 июля, четверг, 18.00 по Москве
Онлайн

"Крупные компании развивают Data Science-направление в своих проектах. Это становится необходимым для предсказания прибыли для бизнеса, для настройки таргетированной рекламы, построении системы рекомендаций и многое другое.
Data-инженеры знают: данные для построения ML-моделей обычно весят сотни гигабайт. В этом случае часто непонятно как работать с таким количеством данных, как генерировать признаки и обучать модели, а также интегрировать работу между Data-инженерами и Data Science-командой.

На митапе я расскажу о процессе обучения модели при помощи библиотеки Spark ML Lib. В докладе мы обсудим базовые возможности библиотеки, способы интеграции нескольких языков программирования в рамках одного процесса обучения + варианты использования базовых классов Spark ML для реализации собственных модулей обработки данных.
На митапе мы также разыграем специальный приз за лучший вопрос по теме."

источник

23:02пожаловаться #17

AB

Andrey Bel in Moscow Spark

Спасибо за митап, тема интересная, один момент тут Указано начало в 18 а на сайте 15

источник

23:10пожаловаться #18

N

Nikita Blagodarnyy in Moscow Spark

UTC?

источник

23:18пожаловаться #19

AB

Andrey Bel in Moscow Spark

Не, написан gmt+3

источник

23:19пожаловаться #20