Size: a a a

R language and Statistical data analysis

2020 April 23

АР

Александр Райков in R language and Statistical data analysis
тогда все остальные организуют категории по супервизору. Я, увы, не помню, где именно это читал, но в каком-то материале лейденцев
источник

A

A in R language and Statistical data analysis
Александр Райков
в порядке мысленного эксперимента - если бы можно было положить в уравнение регрессии абсолютно всё, что могло бы влиять на отклик, при этом не положить ничего лишнего и собрать репрезентативную выборку - тогда бы  можно было говорить, что объясняет на 24%.
Спасибо, вы возродили мысли в моей голове мысли "как люди интерпретируют модели с R2 порядка 0.2 когда мы знаем, что если добавить другой предиктор - все может кардинально измениться.
источник

АР

Александр Райков in R language and Statistical data analysis
наскоолько я понимаю, это вопрос к методологии исследования. То есть один вариант, что это исследование, направленное не на объяснение природы вещей, а на возможности прогнозирования при такой-то имеющейся информации. Насколько можно предсказать Y, если у меня есть вот такие X1 и X2 - на 20%, ответ получен. Второй вариант, что это "я честно положил всё, что мог придумать и вот...". Можно надеяться, что хотя за бортом осталось 80, эти 80 приходятся на дофигищу ничтожно мелких вкладов всякой ерунды или какую-то принципиально непрогнозируемый шум. Так что 20% - это единственно осмысленная часть.
источник

R

R in R language and Statistical data analysis
или на переменные, которые ну никак не должны влиять на те, которые тебе интересны
источник

АР

Александр Райков in R language and Statistical data analysis
ну и от характера предикторов. Если, например, 20% приходятся на пол и возраст, то понятно, что они действуют первично. И добавление чего угодно иного в модель не может ОБЪЕКТИВНО переоценить этот вклад. Если положить коррелирующую с полом черту, то переоценит , но это потому, что анализ будет рассматривать пол и черту как равноправные конкурирующие объяснения. А мы по логике знаем, что сама эта черта под влиянием пола сформирована
источник

АР

Александр Райков in R language and Statistical data analysis
R
или на переменные, которые ну никак не должны влиять на те, которые тебе интересны
Да, я примерно ту же мысль решил подробнее в отдельном сообщении расписать)
источник

АР

Александр Райков in R language and Statistical data analysis
коллеги, у меня самого вопроса в контексте GLM. Можно ли произвести какие-то маниупляции над индивидуальными данными по предиктору, чтобы при суммировании по испытуемым получить объяснённую сумму квадратов? В смысле не обшую сумму квадратов умножать на квадрат получастной корреляции, а получить это же число из индивидуальных данных
источник

АР

Александр Райков in R language and Statistical data analysis
ну типа как в традиционном подходе к ANOVA получают межгрупповую и внутригрупповую сумму квадратов из индивидуальных значений
источник

A

A in R language and Statistical data analysis
Александр Райков
ну и от характера предикторов. Если, например, 20% приходятся на пол и возраст, то понятно, что они действуют первично. И добавление чего угодно иного в модель не может ОБЪЕКТИВНО переоценить этот вклад. Если положить коррелирующую с полом черту, то переоценит , но это потому, что анализ будет рассматривать пол и черту как равноправные конкурирующие объяснения. А мы по логике знаем, что сама эта черта под влиянием пола сформирована
А если это черта (или переменная) только частично зависит от пола/возраста?

Например, скорость бега. Или уровень гормона Х.

Тогда будучи включённой снизит вклад пола/возраста и добавить свой. Но мы знаем, что ее порождает не только пол/возраст
источник

АР

Александр Райков in R language and Statistical data analysis
A
А если это черта (или переменная) только частично зависит от пола/возраста?

Например, скорость бега. Или уровень гормона Х.

Тогда будучи включённой снизит вклад пола/возраста и добавить свой. Но мы знаем, что ее порождает не только пол/возраст
В той части, где она не зависит от пола, она же не будет у пола ничего отъедать.
источник

АР

Александр Райков in R language and Statistical data analysis
если интересует, как влияет пол помимо и сверх половых различий именно в скорости бега, то надо добавлять скорость бега.
источник

АР

Александр Райков in R language and Statistical data analysis
если интересует, как влияет скорость бега помимо и сверх того, что мужчины и женщины бегают по-разному, тоже нужен такой дизайн
источник

АР

Александр Райков in R language and Statistical data analysis
если интересует, как влияет пол через все его следствия, включая скорость бега, то скорость бега к полу добавлять не надо
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Александр Райков
коллеги, у меня самого вопроса в контексте GLM. Можно ли произвести какие-то маниупляции над индивидуальными данными по предиктору, чтобы при суммировании по испытуемым получить объяснённую сумму квадратов? В смысле не обшую сумму квадратов умножать на квадрат получастной корреляции, а получить это же число из индивидуальных данных
источник

MV

Marina Varfolomeeva 🐾 Varmarrra in R language and Statistical data analysis
Александр Райков
коллеги, у меня самого вопроса в контексте GLM. Можно ли произвести какие-то маниупляции над индивидуальными данными по предиктору, чтобы при суммировании по испытуемым получить объяснённую сумму квадратов? В смысле не обшую сумму квадратов умножать на квадрат получастной корреляции, а получить это же число из индивидуальных данных
Не поняла вопрос. Суммы квадратов тоже "из индивидуальных данных". Или интересует доля изменчивости, объясненная индивидуально каждым из предикторов?
источник

MV

Marina Varfolomeeva 🐾 Varmarrra in R language and Statistical data analysis
Александр Райков
ну типа как в традиционном подходе к ANOVA получают межгрупповую и внутригрупповую сумму квадратов из индивидуальных значений
В GLM суммы квадратов вычисляются по разнице общих сумм квадратов вложенных моделей с и без соотв. предиктора, т.е. данных об одном предикторе недостаточно.
источник

A

A in R language and Statistical data analysis
@carpodacus @konhis @ybrcs  большое спасибо за комментарии и критику
источник

St

Snow time in R language and Statistical data analysis
Всем добрый день. Пользуется ли кто-нибудь пакетом googlesheets4? У меня никак не получается записать данные в определенный диапозон ячеек, получаю ошибку:
источник

St

Snow time in R language and Statistical data analysis
Error: Don't know how to coerce an object of class 'tbl_df/tbl/data.frame' into a 'sheets_id'
источник

St

Snow time in R language and Statistical data analysis
Буду благодарен за рабочий пример, если кому-то доводилось работать с этим пакетом
источник