Size: a a a

2019 April 25

AA

Anton Alekseev in Moscow Spark
Dmitry Bugaychenko
Пивота точно можно избежать переходя к вектору ДО пивота. Главное правильно стратегию векторизации применить. Пасте бин протух уже 🙁
Да, к этому и пришёл (вместо пивота и векторассемблера) делаю группировку-сортировку-векторизацию (я об этом пивоте по факту говорил :) ). Решение на стаке расписано более детально.(https://stackoverflow.com/questions/33866759/spark-scala-dataframe-create-feature-vectors)
источник

PK

Pavel Klemenkov in Moscow Spark
Тут тихенько вышел Spark 2.4.2 с вот такой вот notable change: “Revert SPARK-25250: It may cause the job to hang forever, and is reverted in 2.4.2” https://spark.apache.org/releases/spark-release-2-4-2.html
источник

OI

Oleg Ilinsky in Moscow Spark
красиво
источник

KS

Kostya Shchetkin in Moscow Spark
есть таблица
*date , userID, categoryID, qty*

хочу посчитать распределение по категориям за 90 последних дней для каждой даты
то есть получить date, userID, cat_1_qty_share, cat_2_qty_share, cat_2_qty_share ...

Есть элегантный способ это сделать, а не прогонять миллиард оконных функций с (rangeBetween-ом)?
источник

ЕГ

Евгений Глотов... in Moscow Spark
У каждого юзера своя дата?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или у каждого юзера куча записей с разными датами, и нужно свернуть допустим до последней?
источник

KS

Kostya Shchetkin in Moscow Spark
на каждую строчку в данных нужно иметь распределение по категориям за 90 последних дней
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну тогда надо сделать пивот по категориям сначала
источник

ЕГ

Евгений Глотов... in Moscow Spark
А потом одну оконную функцию с range between
источник

KS

Kostya Shchetkin in Moscow Spark
есть вариант сделать пивот,  а потом окнами для каждой категории
источник

KS

Kostya Shchetkin in Moscow Spark
но эт долго (
источник

ЕГ

Евгений Глотов... in Moscow Spark
Окно-то одно должно быть
источник

ЕГ

Евгений Глотов... in Moscow Spark
Почему долго?
источник

KS

Kostya Shchetkin in Moscow Spark
ну у меня 50 категорий допустим
источник

ЕГ

Евгений Глотов... in Moscow Spark
И почему долго?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Какая разница, сколько колонок суммировать, сортировка будет одна
источник

KS

Kostya Shchetkin in Moscow Spark
мне же на каждую колонку нужно каунты с окном посчитать?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Окно одинаковое
источник

KS

Kostya Shchetkin in Moscow Spark
то есть как-то можно в оконной функции сразу вернуть расчеты по нескольким колонкам?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Нет, надо просто написать селект с 50 оконными функциями, каждая из которых принимает в овер одно и то же окно
источник