Size: a a a

R language and Statistical data analysis

2020 April 23

АР

Александр Райков in R language and Statistical data analysis
но что корреляция Пирсона, что линейная регрессия данных, сделанных из одного анкетного вопроса, на аналогичным образом полученные данные из других вопросов - это несерьёзно
источник

A

A in R language and Statistical data analysis
Philipp Upravitelev
>Предполагаю, что каждая из них содержит слишком много от другой.
это вам PCA или матрица корреляций вполне покажут

про изолировать я имею ввиду, что когда у вас уравнение регрессии вида y = 2  * x1 + 3 * x3 + 19, вы не можете говорить о том, что x3 делает максимальный вклад, так как у вас в модели два предиктора. точнее, вы можете так говорить, если корреляция между предикторами нулевая
Если я правильно понимаю, в академических журналах именно так и рассуждают - запихивают в модель и отдельные веса интерпретируют.

Или я не так понял вашу критику.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
A
Определенно уникальный.
а вы не хотите просто какой-нибудь альфой кронбаха потестировать вопросы, на дифференцирующую способность ответы проверить?
источник

R

R in R language and Statistical data analysis
Виктория
я про это думала, но как исправить не знаю
создание Product должно быть в саммарайзе
источник

R

R in R language and Statistical data analysis
а не в mutate
источник

АР

Александр Райков in R language and Statistical data analysis
Philipp Upravitelev
а вы не хотите просто какой-нибудь альфой кронбаха потестировать вопросы, на дифференцирующую способность ответы проверить?
А как он будет проверять альфой без готовой разбивки по шкалам?
источник

АР

Александр Райков in R language and Statistical data analysis
все в одну шкалу запихать? альфа купится 50 вопросами, да
источник

PD

Pavel Demin in R language and Statistical data analysis
Philipp Upravitelev
>Предполагаю, что каждая из них содержит слишком много от другой.
это вам PCA или матрица корреляций вполне покажут

про изолировать я имею ввиду, что когда у вас уравнение регрессии вида y = 2  * x1 + 3 * x3 + 19, вы не можете говорить о том, что x3 делает максимальный вклад, так как у вас в модели два предиктора. точнее, вы можете так говорить, если корреляция между предикторами нулевая
я всю жизнь думал, что наибольший вклад определяется по станартизированному коэффициенту…
источник

В

Виктория in R language and Statistical data analysis
R
создание Product должно быть в саммарайзе
а, если вы про такой вариант summarise(Revenue = sum(itemRevenue),Product = paste(productName,sep = ";")) , то я пробовала. ошибка такая:must be length 1 (a summary value), not 3
источник

АР

Александр Райков in R language and Statistical data analysis
Pavel Demin
я всю жизнь думал, что наибольший вклад определяется по станартизированному коэффициенту…
наибольший уникальный вклад. Наибольший вклад вообще может иметь наименьший стандартизированный коэффициент, если весь этот вклад распиливается по другим переменным без остатка
источник

R

R in R language and Statistical data analysis
Виктория
а, если вы про такой вариант summarise(Revenue = sum(itemRevenue),Product = paste(productName,sep = ";")) , то я пробовала. ошибка такая:must be length 1 (a summary value), not 3
потому что должно быть paste0(productName, collapse = ";")
источник

В

Виктория in R language and Statistical data analysis
R
потому что должно быть paste0(productName, collapse = ";")
да, так получилось. Спасибо большое)
источник

A

A in R language and Statistical data analysis
Александр Райков
наибольший уникальный вклад. Наибольший вклад вообще может иметь наименьший стандартизированный коэффициент, если весь этот вклад распиливается по другим переменным без остатка
то есть ответ все же "отдельные беты в модели - это уникальные вклады, которые можно интерпретировать отдельно" ?
источник

АР

Александр Райков in R language and Statistical data analysis
предиктор - это не вклад. Предиктор - это переменная, которая привлекается для объяснения. У предиктора есть вклад в объяснение "зависимой" переменной, от нулевого, до исчерпывающего
источник

АР

Александр Райков in R language and Statistical data analysis
отдельные вклады (коэффициенты регрессии, коэффициенты получастной корреляции и т.п.) интерпретировать можно в контексте уравнения регрессии в целом. Т.е. вопрос 1 объясняет 24% дисперсии отклика помимо и сверх остальных вопросов. Говорить, что он вообще по жизни объясняет отклик на 24% на этом основании будет ошибкой, поскольку в составе другого уравнения регрессии его вклад переоценится.
источник

АР

Александр Райков in R language and Statistical data analysis
в порядке мысленного эксперимента - если бы можно было положить в уравнение регрессии абсолютно всё, что могло бы влиять на отклик, при этом не положить ничего лишнего и собрать репрезентативную выборку - тогда бы  можно было говорить, что объясняет на 24%.
источник

АР

Александр Райков in R language and Statistical data analysis
если недоположить что-то важное, но косвенно связанное с включенным предиктором, тогда включенный предиктор будет подхватывать к себе чужой вклад
источник

АР

Александр Райков in R language and Statistical data analysis
если положить что-то лишнее, дублирующее уже включенные предиктора, тогда в совпадающей части они будут отгрызать вклад друг у друга
источник

A

A in R language and Statistical data analysis
Александр Райков
если мотивация обратиться к PCA - в расчёте перейти от отдельно взятых ненадёжных вопросов к чему-то более ёмкому по смыслу, то я бы посоветовал CatPCA с супервизором из зависимой переменной. Тогда а) можно будет выправить кривизну шкалирования по отдельным вопросам, б) предикторы будут трансфорироваться не на основе междусобойной близости (и нет гарантии, что компоненты, которые наиболее хорошо обобщают данные по предикторам, одновременно хоть как-нибудь связаны с откликом), а прежде всего из соображений максимальной связи с откликом.
Большое спасибо, думал о CatPCA.

Что вы называете супервизором здесь? В документации к gifi, factominer подобного не увидел, у SPSS увидел "weight variable"
источник

АР

Александр Райков in R language and Statistical data analysis
супервизор делается через придание ему исключительно большого веса
источник