Size: a a a

R language and Statistical data analysis

2017 October 09

A

Andrey in R language and Statistical data analysis
Частичное присваивание лучше в data.table делать через :=
источник

AC

Andrey C. in R language and Statistical data analysis
Andrey
Там есть case_which или типа того, см справку
case_when
источник

JS

Jury Sergeev in R language and Statistical data analysis
а как пайпы работаю в dplyr - один за другим? или чанками могут?
источник

A

Andrey in R language and Statistical data analysis
Один за одним
источник

A

Andrey in R language and Statistical data analysis
Есть пакет chunked, но это все полумеры.
источник

JS

Jury Sergeev in R language and Statistical data analysis
жаль-жаль
источник

JS

Jury Sergeev in R language and Statistical data analysis
получается надо пилить dplyr  с поддержкой чанков
источник

JS

Jury Sergeev in R language and Statistical data analysis
а так было бы заманчиво, читать частями, обрабатывать и складировать
источник

JS

Jury Sergeev in R language and Statistical data analysis
руками такое делал, через foreach и dplyr для части данных внутри foreach, и финальный dplyr пайп после конкатенации результатов
источник

A

Alexander in R language and Statistical data analysis
Спасибо, буду пробовать!
источник

A

Alexander in R language and Statistical data analysis
Там есть case_which или типа того, см справку
источник

A

Alexander in R language and Statistical data analysis
case_when
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
Может кто сталкивался:
строю линейную модель
у меня есть 3 категориальных переменные, в каждой примерно ~ 500 разных значений
делаю one-hot-encodding, кодирую 0 и 1

Помимо этого есть еще 3 числовых предиката - по хорошему их надо как-то отскалировать, знаю два популярных способа: (x - min(x)) / (max(x) -min(x)) и (x - mean(x))/sd(x)

Влияют ли как-то переменные, полученные из one-hot encodding на выбор как нужно скалировать переменные?

извините за слово "скалировать", вылетело из головы, как сказать это по-русски
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
есть же scales::rescale ()

вообще, предикторы вроде как должны быть независимы
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
кстати, а зачем масштабировать вообще?
это ж не кластерный
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
при построении линейных моделей без масштабирования признаков можно получить что-то вообще далекое от желаемого
источник

A

Andrey in R language and Statistical data analysis
Чтобы коэффициенты сравнивать, наверное
источник

A

Andrey in R language and Statistical data analysis
Konstantin Panfilov
при построении линейных моделей без масштабирования признаков можно получить что-то вообще далекое от желаемого
Изменится только масштаб коэффициентов
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
я не упомянул про регуляризацию..
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
насколько я понимаю, с немасштабированными признаками регуляризация отработает неточно
источник