Телеграмм чат группы moscowspark страница 122

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 April 25

AA

Anton Alekseev in Moscow Spark

Dmitry Bugaychenko

Пивота точно можно избежать переходя к вектору ДО пивота. Главное правильно стратегию векторизации применить. Пасте бин протух уже 🙁

Да, к этому и пришёл (вместо пивота и векторассемблера) делаю группировку-сортировку-векторизацию (я об этом пивоте по факту говорил :) ). Решение на стаке расписано более детально.(https://stackoverflow.com/questions/33866759/spark-scala-dataframe-create-feature-vectors)

Spark, Scala, DataFrame: create feature vectors

I have a DataFrame that looks like follow:
userID, category, frequency
1,cat1,1
1,cat2,3
1,cat9,5
2,cat4,6
2,cat9,2
2,cat10,1
3,cat1,5
3,cat7,16
3,cat8,2
The number of distinct categories is 10, ...

источник

10:57пожаловаться #1

PK

Pavel Klemenkov in Moscow Spark

Тут тихенько вышел Spark 2.4.2 с вот такой вот notable change: “Revert SPARK-25250: It may cause the job to hang forever, and is reverted in 2.4.2” https://spark.apache.org/releases/spark-release-2-4-2.html

источник

12:32пожаловаться #2

OI

Oleg Ilinsky in Moscow Spark

красиво

источник

12:34пожаловаться #3

KS

Kostya Shchetkin in Moscow Spark

есть таблица
*date , userID, categoryID, qty*

хочу посчитать распределение по категориям за 90 последних дней для каждой даты
то есть получить date, userID, cat_1_qty_share, cat_2_qty_share, cat_2_qty_share ...

Есть элегантный способ это сделать, а не прогонять миллиард оконных функций с (rangeBetween-ом)?

источник

12:59пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

У каждого юзера своя дата?

источник

13:05пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Или у каждого юзера куча записей с разными датами, и нужно свернуть допустим до последней?

источник

13:06пожаловаться #6

KS

Kostya Shchetkin in Moscow Spark

на каждую строчку в данных нужно иметь распределение по категориям за 90 последних дней

источник

13:08пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Ну тогда надо сделать пивот по категориям сначала

источник

13:09пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

А потом одну оконную функцию с range between

источник

13:10пожаловаться #9

KS

Kostya Shchetkin in Moscow Spark

есть вариант сделать пивот, а потом окнами для каждой категории

источник

13:10пожаловаться #10

KS

Kostya Shchetkin in Moscow Spark

но эт долго (

источник

13:10пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Окно-то одно должно быть

источник

13:10пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Почему долго?

источник

13:10пожаловаться #13

KS

Kostya Shchetkin in Moscow Spark

ну у меня 50 категорий допустим

источник

13:11пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

И почему долго?

источник

13:11пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Какая разница, сколько колонок суммировать, сортировка будет одна

источник

13:12пожаловаться #16

KS

Kostya Shchetkin in Moscow Spark

мне же на каждую колонку нужно каунты с окном посчитать?

источник

13:12пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

Окно одинаковое

источник

13:12пожаловаться #18

KS

Kostya Shchetkin in Moscow Spark

то есть как-то можно в оконной функции сразу вернуть расчеты по нескольким колонкам?

источник

13:14пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

Нет, надо просто написать селект с 50 оконными функциями, каждая из которых принимает в овер одно и то же окно

источник

13:15пожаловаться #20