Телеграмм чат группы mlbootcamp страница 13334

в спарс-матрицу?

13:13пожаловаться #1

ИБ

Ruslan515 Y

у нас на компах по 8 гб. не хватает. а данные пока маленькие. в связи с чем тормозит. нужно искать решение. подсказали spark, hadoop & desk

если возможно логически разбить датасет на части, и на данном этапе нужен research, то лучше взять кусок данных и поработать в пандасе.
Если тот же алгоритм не заработает на всех данных (например на каком нибудь AWS серваке с большим количеством оперативки) то переписать под spark

13:14пожаловаться #2

ИБ

spark, скорее всего, отработает, и на 8 Гб

13:15пожаловаться #3

JS

Ruslan515 Y

все данные нужны для изменений. и таблица очень сильно разряженная - тогда какие могут быть пути решения?

если разряженные данные - то в sparse-матрицу все пихай, памяти меньше съест

13:15пожаловаться #4

RY

Ruslan515 Y in ML Boot Camp Official

Jury Sergeev

в спарс-матрицу?

а как скомбинировать спарс и датафрейм(удобно использовать имена столбцов и индексы)

13:16пожаловаться #5

JS

Ruslan515 Y

а как скомбинировать спарс и датафрейм(удобно использовать имена столбцов и индексы)

да там не сильно сложнее то все будет, имхо...

13:18пожаловаться #6

RY

Ruslan515 Y in ML Boot Camp Official

Jury Sergeev

да там не сильно сложнее то все будет, имхо...

ок. гляну

13:18пожаловаться #7

JS

по опыту в спарс-матрицу "обычные" фичи из df без проблем добавлял

13:18пожаловаться #8

K

Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю

13:19пожаловаться #9

JS

Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю

ежли б спросил господинов R-щиков, я б ответил - через future.apply

13:20пожаловаться #10

K

Я R теперь ещё хуже помню :с не притрагивался год точно

13:21пожаловаться #11

ИБ

Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю

догадываюсь что лежит в поле id и какие варианты у поля var1 ))

13:22пожаловаться #12

K

Иван Брагин

догадываюсь что лежит в поле id и какие варианты у поля var1 ))

id - это кат фича, val1 - numeric

13:22пожаловаться #13

ИБ

я про то, что похоже что id это userid, а var1 - это field[0-30]

13:23пожаловаться #14

K

AnimatedSticker.tgs

(13.73 Кб)

13:23пожаловаться #15

K

Ахааа, нет)

13:23пожаловаться #16

ИБ

чОрт

13:24пожаловаться #17

K

Это я для другого соревнования)))0)

13:24пожаловаться #18

PM

Pavel Morra in ML Boot Camp Official

Ахааа, нет)

байтит)))

13:24пожаловаться #19

K

Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю

Я так по-кривому ещё во вроде считал фичи. Только там ещё хуже, надо было time-window юзать, а для них time нужно делать индексом