Телеграмм чат группы rlang

Может кто сталкивался:
строю линейную модель
у меня есть 3 категориальных переменные, в каждой примерно ~ 500 разных значений
делаю one-hot-encodding, кодирую 0 и 1

Помимо этого есть еще 3 числовых предиката - по хорошему их надо как-то отскалировать, знаю два популярных способа: (x - min(x)) / (max(x) -min(x)) и (x - mean(x))/sd(x)

Влияют ли как-то переменные, полученные из one-hot encodding на выбор как нужно скалировать переменные?

извините за слово "скалировать", вылетело из головы, как сказать это по-русски

я где-то читал, что если у вас много dummy variables (не знаю, как переводится точно), то лучше делать min-max трансформацию, т.к. тогда количественная переменная будет в тех же пределах, что и категориальные (от 0 до 1). Хотя это не столь принципиально, главное, чтобы переменные были соразмерны

источник

15:51пожаловаться #7

Nikolay in R language and Statistical data analysis

так что любой способ подходит

источник

15:51пожаловаться #8

Konstantin Panfilov in R language and Statistical data analysis

спасибо!

источник

16:53пожаловаться #9

Vladimir Volokhonsky in R language and Statistical data analysis

Про "вынуть субсет и вставить обратно". Если там что-то сложное происходит, то примерно так:

У меня обычный алгоритм такой:
1) вставляем в исходные данные data переменную-фильтр, например filter1.
2) вынести отфильтрованное в новый датасет data_new
3) сделать нужный шурум-бурум с data_new
4) data<-rbindlist(list(data[filter1==0],data_new))
5) data$filter1<-NULL
rm(data_new)

источник

17:18пожаловаться #10

Vladimir Volokhonsky in R language and Statistical data analysis

Иногда надо сохранить порядок, тогда я делаю отдельную id-переменную, которая хранит порядок.

источник

17:19пожаловаться #11

Vladimir Volokhonsky in R language and Statistical data analysis

В ходе шурум-бурума надо следить за преобразованием типов.

источник

17:19пожаловаться #12

Vladimir Volokhonsky in R language and Statistical data analysis

Иногда я делаю на четвёртом шаге фильтрацию имён переменных, чтобы в результате сохранялись только те переменные, которые были до шурум-бурума и остались после.

источник

17:20пожаловаться #13

Konstantin Petrov in R language and Statistical data analysis

после такой вот вставки, есть метод который возволит еще и номер позиции столбца поменять?

источник

17:21пожаловаться #14

Konstantin Petrov in R language and Statistical data analysis

приклеили с конца, перенесли на вторую позицию

источник

17:21пожаловаться #15

Vladimir Volokhonsky in R language and Statistical data analysis

В data.table у меня нет с этим особых проблем. Сейчас покажу.

источник

17:22пожаловаться #16

Vladimir Volokhonsky in R language and Statistical data analysis

data2<-rbind(data2,data_all[,.SD,.SDcol=names(data2)])

источник

17:23пожаловаться #17

Vladimir Volokhonsky in R language and Statistical data analysis

При таком раскладе из data_all берутся только те колонки, которые есть в data2 и расставленными в том же порядке, что был в оригинале.

источник

17:23пожаловаться #18

2017 October 10

Vladimir Volokhonsky in R language and Statistical data analysis

А теперь у меня вдруг вопрос по существу, а не по R. Вот смотрите, у меня есть две группирующие переменные и вагон вопросов, которые представляют собой данные разного типа. В принципе, эти данные могут быть приведены к трём типам: 1) номинативные, 2) бинарные, 3) порядковые.

источник

11:29пожаловаться #19

Vladimir Volokhonsky in R language and Statistical data analysis

Когда я хочу по отдельности посчитать связь группирующих переменных с вопросами, я беру обычный такой хи-квадрат и тест Краскалла-Уоллиса, прогоняю их по всем вопросам, а потом уже при составлении итогового отчёта исследователь смотрит в нужный столбик в зависимости от типа данных. И принимает решение, включать график в отчёт или не включать.

источник

11:31пожаловаться #20