Size: a a a

R language and Statistical data analysis

2020 April 22

PP

Putra Pratama in R language and Statistical data analysis
источник
2020 April 23

A

A in R language and Statistical data analysis
Доброй ночи!

Выскажите мнение по стратегии анализа, пожалуйста.

Есть опрос на 30 "шкал" (большинство 1, несколько по 2 вопроса). Есть одна "целевая" шкала из одного вопроса - нужно понять, что с ней связано сильнее всего.

PCA пока дает факторы 45, 7, 5 и дальше ещё меньше процентов дисперсии. Интерпретируемы слабо.

Думаю начать играть с lasso и разными вариантами stepwise отбора в  регрессии.

Что посоветуете?

Дальше снижение размерности? T-sne, svd? И убирать признаки, которые окажутся малонагружены чтобы было интпретируемо?

Препарировать регрессию и регуляризации?

Быть может что-то ещё?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
задача-то какая?
и чем корреляция не угодила?

в уравнениях регрессии у вас будет играть весь комплекс, то есть, вклад какой-то переменной будет с таким коэффициентом при наличии в модели других переменных. и изолированно эти коэффициенты будет рассматривать неправильно
источник

АР

Александр Райков in R language and Statistical data analysis
Я тоже пока не вижу оснований накручивать анализ исходя из смысла задачи, но вижу потенциальные резоны накрутить его из-за низкого качества входных данных (опросные данные с 1-2 вопросами на "шкалу", я так понимаю, ещё и с малым числом градаций - это чревато большой ненадёжностью измерения)
источник

АР

Александр Райков in R language and Statistical data analysis
если мотивация обратиться к PCA - в расчёте перейти от отдельно взятых ненадёжных вопросов к чему-то более ёмкому по смыслу, то я бы посоветовал CatPCA с супервизором из зависимой переменной. Тогда а) можно будет выправить кривизну шкалирования по отдельным вопросам, б) предикторы будут трансфорироваться не на основе междусобойной близости (и нет гарантии, что компоненты, которые наиболее хорошо обобщают данные по предикторам, одновременно хоть как-нибудь связаны с откликом), а прежде всего из соображений максимальной связи с откликом.
источник

A

A in R language and Statistical data analysis
Philipp Upravitelev
задача-то какая?
и чем корреляция не угодила?

в уравнениях регрессии у вас будет играть весь комплекс, то есть, вклад какой-то переменной будет с таким коэффициентом при наличии в модели других переменных. и изолированно эти коэффициенты будет рассматривать неправильно
Корреляции в среднем 0.5.
Предполагаю, что каждая из них содержит слишком много от другой.

А если отобрать несколько и сделать для них отдельную модель? Или это вы и называете "изолировать"?
источник

В

Виктория in R language and Statistical data analysis
Всем привет! Подскажите, как правильно в данном случае произвести группировку. есть такая структура данных http://joxi.ru/12M83bnc0YRMBm (название таблицы data)
Группировка по столбцам transactionId и date, считаю сумму по столбцу itemRevenue и нужен столбец с наименованием продуктов в этом заказе с некоторым разделителем.
Пример кода: d<-data %>%
 group_by(transactionId,date)%>%
 summarise(Revenue = sum(itemRevenue))%>%
 mutate(Product = paste(productName,sep = ";"))
Ошибка - Error in paste(productName, sep = ";") : object 'productName' not found
источник

A

Alexander in R language and Statistical data analysis
попробуйте .$productName вместо productName
источник

A

A in R language and Statistical data analysis
Александр Райков
Я тоже пока не вижу оснований накручивать анализ исходя из смысла задачи, но вижу потенциальные резоны накрутить его из-за низкого качества входных данных (опросные данные с 1-2 вопросами на "шкалу", я так понимаю, ещё и с малым числом градаций - это чревато большой ненадёжностью измерения)
Все так. На каждый вопрос 4 категориальных варианта ответа, некоторые - 5 (оцените от 1 до 5).

На выходе нам дают по сути "доля положительных ответов".

Изменить это не могу, увы.
источник

A

A in R language and Statistical data analysis
Александр Райков
если мотивация обратиться к PCA - в расчёте перейти от отдельно взятых ненадёжных вопросов к чему-то более ёмкому по смыслу, то я бы посоветовал CatPCA с супервизором из зависимой переменной. Тогда а) можно будет выправить кривизну шкалирования по отдельным вопросам, б) предикторы будут трансфорироваться не на основе междусобойной близости (и нет гарантии, что компоненты, которые наиболее хорошо обобщают данные по предикторам, одновременно хоть как-нибудь связаны с откликом), а прежде всего из соображений максимальной связи с откликом.
Большое спасибо, посмотрю
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
>Предполагаю, что каждая из них содержит слишком много от другой.
это вам PCA или матрица корреляций вполне покажут

про изолировать я имею ввиду, что когда у вас уравнение регрессии вида y = 2  * x1 + 3 * x3 + 19, вы не можете говорить о том, что x3 делает максимальный вклад, так как у вас в модели два предиктора. точнее, вы можете так говорить, если корреляция между предикторами нулевая
источник

В

Виктория in R language and Statistical data analysis
Alexander
попробуйте .$productName вместо productName
Error: Column Product must be length 1 (the group size), not 0
In addition: Warning message:
Unknown or uninitialised column: 'productName'.
источник

R

R in R language and Statistical data analysis
Виктория
Всем привет! Подскажите, как правильно в данном случае произвести группировку. есть такая структура данных http://joxi.ru/12M83bnc0YRMBm (название таблицы data)
Группировка по столбцам transactionId и date, считаю сумму по столбцу itemRevenue и нужен столбец с наименованием продуктов в этом заказе с некоторым разделителем.
Пример кода: d<-data %>%
 group_by(transactionId,date)%>%
 summarise(Revenue = sum(itemRevenue))%>%
 mutate(Product = paste(productName,sep = ";"))
Ошибка - Error in paste(productName, sep = ";") : object 'productName' not found
так там в групбае/саммарайзе же нет продактнейм
источник

АР

Александр Райков in R language and Statistical data analysis
Philipp Upravitelev
>Предполагаю, что каждая из них содержит слишком много от другой.
это вам PCA или матрица корреляций вполне покажут

про изолировать я имею ввиду, что когда у вас уравнение регрессии вида y = 2  * x1 + 3 * x3 + 19, вы не можете говорить о том, что x3 делает максимальный вклад, так как у вас в модели два предиктора. точнее, вы можете так говорить, если корреляция между предикторами нулевая
Коэффициенты 1, 2 и 3 как стандартизированные получить, насколько я понимаю, невозможно (за 1 в экстрмальных случаях выйти можно, но тогда что-то другое будет иметь нехилый минус). А в нестандартизированных рано говорить о вкладе при любой корреляции)
источник

АР

Александр Райков in R language and Statistical data analysis
Хотя что я говорю, в стандартизированных и константы не будет
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
значения для иллюстрации, от балды написал, честно говоря
в остальном согласен
источник

АР

Александр Райков in R language and Statistical data analysis
не, ну на предмет его вопрос надо чётко обозначить для себя, интересует ли наибольший вклад вообще или наибольший уникальный (не покрываемый другими) вклад
источник

АР

Александр Райков in R language and Statistical data analysis
если первое, то к корреляции, если второе - то к регрессии
источник

В

Виктория in R language and Statistical data analysis
R
так там в групбае/саммарайзе же нет продактнейм
я про это думала, но как исправить не знаю
источник

A

A in R language and Statistical data analysis
Александр Райков
если первое, то к корреляции, если второе - то к регрессии
Определенно уникальный.
источник