Size: a a a

ML Boot Camp Official

2019 December 18

JS

Jury Sergeev in ML Boot Camp Official
в спарс-матрицу?
источник

ИБ

Иван Брагин in ML Boot Camp Official
Ruslan515 Y
у нас на компах по 8 гб. не хватает. а данные пока маленькие. в связи с чем тормозит. нужно искать решение. подсказали spark, hadoop & desk
если возможно логически разбить датасет на части, и на данном этапе нужен research, то лучше взять кусок данных и поработать в пандасе.
Если тот же алгоритм не заработает на всех данных (например на каком нибудь AWS серваке с большим количеством оперативки) то переписать под spark
источник

ИБ

Иван Брагин in ML Boot Camp Official
spark, скорее всего, отработает, и на 8 Гб
источник

JS

Jury Sergeev in ML Boot Camp Official
Ruslan515 Y
все данные нужны для изменений. и таблица очень сильно разряженная - тогда какие могут быть пути решения?
если разряженные данные - то в sparse-матрицу все пихай, памяти меньше съест
источник

RY

Ruslan515 Y in ML Boot Camp Official
Jury Sergeev
в спарс-матрицу?
а как скомбинировать спарс и датафрейм(удобно использовать имена столбцов и индексы)
источник

JS

Jury Sergeev in ML Boot Camp Official
Ruslan515 Y
а как скомбинировать спарс и датафрейм(удобно использовать имена столбцов и индексы)
да там не сильно сложнее то все будет, имхо...
источник

RY

Ruslan515 Y in ML Boot Camp Official
Jury Sergeev
да там не сильно сложнее то все будет, имхо...
ок. гляну
источник

JS

Jury Sergeev in ML Boot Camp Official
по опыту в спарс-матрицу "обычные" фичи из df без проблем добавлял
источник

K

K-S in ML Boot Camp Official
Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю
источник

JS

Jury Sergeev in ML Boot Camp Official
K-S
Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю
ежли б спросил господинов R-щиков, я б ответил - через future.apply
источник

K

K-S in ML Boot Camp Official
Я R теперь ещё хуже помню :с не притрагивался год точно
источник

ИБ

Иван Брагин in ML Boot Camp Official
K-S
Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю
догадываюсь что лежит в поле id и какие варианты у поля var1 ))
источник

K

K-S in ML Boot Camp Official
Иван Брагин
догадываюсь что лежит в поле id и какие варианты у поля var1 ))
id - это кат фича, val1 - numeric
источник

ИБ

Иван Брагин in ML Boot Camp Official
я про то, что похоже что id это userid, а var1 - это field[0-30]
источник

K

K-S in ML Boot Camp Official
источник

K

K-S in ML Boot Camp Official
Ахааа, нет)
источник

ИБ

Иван Брагин in ML Boot Camp Official
чОрт
источник

K

K-S in ML Boot Camp Official
Это я для другого соревнования)))0)
источник

PM

Pavel Morra in ML Boot Camp Official
K-S
Ахааа, нет)
байтит)))
источник

K

K-S in ML Boot Camp Official
K-S
Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю
Я так по-кривому ещё во вроде считал фичи. Только там ещё хуже, надо было time-window юзать, а для них time нужно делать индексом
источник