Телеграмм чат группы moscowspark страница 990

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1233 membersпожаловаться на группу

2022 February 03

A

Alex in Moscow Spark

по грубым прикидкам там 64ms на модель/row получается, много это или мало хз =) я не датасатанист

источник

11:24пожаловаться #1

DZ

Dmitry Zuev in Moscow Spark

мож там модель поднимается на каждую строку

источник

11:24пожаловаться #2

MD

Michael Davydov in Moscow Spark

+1

источник

11:24пожаловаться #3

k

kvadratura in Moscow Spark

попробуйте вместо udf использовать mapPartitions, если у вас первый вызов модели дорогой

источник

11:25пожаловаться #4

k

kvadratura in Moscow Spark

+ есть немаленькие шансы, что в udf при каждом вызове что-то долго создается

источник

11:25пожаловаться #5

k

kvadratura in Moscow Spark

может, уткнулись в non serializable, и запихнули всю инициализацию в udf

источник

11:27пожаловаться #6

A

Ali Isfandiyarov in Moscow Spark

примерно выглядит вот так val predictor = Predictor.loadPredictor(cfg)

val udfPredict = udf((x: String) => {
val values = x.split("#").map(_.toFloat)
val matrix = new DMatrix(values, 1, values.length)
predictor.predict(matrix)(0)(0)
})

источник

11:28пожаловаться #7

MD

Michael Davydov in Moscow Spark

Ну да, я бы начал с map partition в вашем случае

источник

11:28пожаловаться #8

MD

Michael Davydov in Moscow Spark

Не так красиво, как юдф, но очень эффективно

источник

11:29пожаловаться #9

A

Ali Isfandiyarov in Moscow Spark

попробую)

источник

11:29пожаловаться #10

MD

Michael Davydov in Moscow Spark

Возвращайтесь с потом результатом, интересно же)

источник

11:30пожаловаться #11

A

Ali Isfandiyarov in Moscow Spark

окей)

источник

11:30пожаловаться #12

k

kvadratura in Moscow Spark

мне кажется, это можно разбить на несколько функций, и последовательно их вызвать

источник

11:33пожаловаться #13

PL

Pavel Lu in Moscow Spark

сразу вопрос - в каждой udf у вас split строки

источник

11:36пожаловаться #14

k

kvadratura in Moscow Spark

и с mapPartitions лучше loadPredictor запихнуть внутрь вызываемой функции, а "снаружи" подавать только конфиг

источник

11:37пожаловаться #15

PL

Pavel Lu in Moscow Spark

да и создание матрицы...

источник

11:37пожаловаться #16

k

kvadratura in Moscow Spark

сколько элементов получается обычно после split?

источник

11:37пожаловаться #17

A

Ali Isfandiyarov in Moscow Spark

зависит от модели, от 8-40 где-то

источник

11:38пожаловаться #18

k

kvadratura in Moscow Spark

т. е. есть нечто, происходящее до udf, которое создает строки с #?

источник

11:40пожаловаться #19

A

Ali Isfandiyarov in Moscow Spark

да, поскольку 1 скрипт должен обрабатывать разные модели

источник

11:40пожаловаться #20