Size: a a a

R language and Statistical data analysis

2017 October 09

KP

Konstantin Panfilov in R language and Statistical data analysis
ну и собсно к начальному вопросу добавляется условие: при построении модели используется и L1, и L2 регуляризация
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
оу, микс какой
а чем регуляризацию делаешь?
glmnet?

*по сабжу - я тут не подскажу, сорри
источник

A

Andrey in R language and Statistical data analysis
Konstantin Panfilov
я не упомянул про регуляризацию..
Тогда да.
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
Philipp Upravitelev
оу, микс какой
а чем регуляризацию делаешь?
glmnet?

*по сабжу - я тут не подскажу, сорри
в glmnet долго работал, но сейчас делаю на xgboost - тут больше нужных возможностей
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ок
источник

A

Andrey in R language and Statistical data analysis
Тензорфлоу/керас еще можно прикрутить
источник

N

Nikolay in R language and Statistical data analysis
Konstantin Panfilov
Может кто сталкивался:
строю линейную модель
у меня есть 3 категориальных переменные, в каждой примерно ~ 500 разных значений
делаю one-hot-encodding, кодирую 0 и 1

Помимо этого есть еще 3 числовых предиката - по хорошему их надо как-то отскалировать, знаю два популярных способа: (x - min(x)) / (max(x) -min(x)) и (x - mean(x))/sd(x)

Влияют ли как-то переменные, полученные из one-hot encodding на выбор как нужно скалировать переменные?

извините за слово "скалировать", вылетело из головы, как сказать это по-русски
я где-то читал, что если у вас много dummy variables (не знаю, как переводится точно), то лучше делать min-max трансформацию, т.к. тогда количественная переменная будет в тех же пределах, что и категориальные (от 0 до 1). Хотя это не столь принципиально, главное, чтобы переменные были соразмерны
источник

N

Nikolay in R language and Statistical data analysis
так что любой способ подходит
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
спасибо!
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Про "вынуть субсет и вставить обратно".  Если там что-то сложное происходит, то примерно так:

У меня обычный алгоритм такой:
1) вставляем в исходные данные data переменную-фильтр, например filter1.
2) вынести отфильтрованное в новый датасет data_new
3) сделать нужный шурум-бурум с data_new
4) data<-rbindlist(list(data[filter1==0],data_new))
5) data$filter1<-NULL
rm(data_new)
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Иногда надо сохранить порядок, тогда я делаю отдельную id-переменную, которая хранит порядок.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
В ходе шурум-бурума надо следить за преобразованием типов.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Иногда я делаю на четвёртом шаге фильтрацию имён переменных, чтобы в результате сохранялись только те переменные, которые были до шурум-бурума и остались после.
источник

KP

Konstantin Petrov in R language and Statistical data analysis
после такой вот вставки, есть метод который возволит еще и номер позиции столбца поменять?
источник

KP

Konstantin Petrov in R language and Statistical data analysis
приклеили с конца, перенесли на вторую позицию
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
В data.table у меня нет с этим особых проблем. Сейчас покажу.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
data2<-rbind(data2,data_all[,.SD,.SDcol=names(data2)])
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
При таком раскладе из data_all берутся только те колонки, которые есть в data2 и расставленными в том же порядке, что был в оригинале.
источник
2017 October 10

VV

Vladimir Volokhonsky in R language and Statistical data analysis
А теперь у меня вдруг вопрос по существу, а не по R. Вот смотрите, у меня есть две группирующие переменные и вагон вопросов, которые представляют собой данные разного типа. В принципе, эти данные могут быть приведены к трём типам: 1) номинативные, 2) бинарные, 3) порядковые.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Когда я хочу по отдельности посчитать связь группирующих переменных с вопросами, я беру обычный такой хи-квадрат и тест Краскалла-Уоллиса, прогоняю их по всем вопросам, а потом уже при составлении итогового отчёта исследователь смотрит в нужный столбик в зависимости от типа данных. И принимает решение, включать график в отчёт или не включать.
источник