Size: a a a

R language and Statistical data analysis

2020 March 13

АР

Александр Райков in R language and Statistical data analysis
Александр [capsula]
А вы ломали как? Бутстреппом? Многосотенными наборами? У меня действительно вопрос только один - почему большая выборка плохо?
Большая выборка - это плохо, если вы учите новичка проверке гипотез, пока не собираясь ему рассказывать про силу эффекта, побочные переменные и т.п.
источник

АР

Александр Райков in R language and Statistical data analysis
Потому что будет выскакивать все значимо, это раз. А надо, чтобы он и незначимое повидал
источник

АР

Александр Райков in R language and Statistical data analysis
Приучите его верить а такую значимость, когда реально надо быть скептичным и смотреть на силу эффекта - это два
источник

АР

Александр Райков in R language and Statistical data analysis
Евгений Томилов
Кстати, а что-то из тестов сейчас появилось новое модное, кроме перестановочных вариантов и байесовских аналогов? Я вторые сейчас разбираю, они выглядят как-то приятнее традиционных, можно больше гипотез тестировать по типу "какова вероятность, что различия больше 3, но меньше 5".
А это чем тестируется?
источник

АР

Александр Райков in R language and Statistical data analysis
Александр [capsula]
Но ведь чем меньше выборка, тем меньше вероятность, что она случайна, опять же, исходя из практики
Логика проверки гипотез исходит из того, что все выборки случайно набраны
источник

АР

Александр Райков in R language and Statistical data analysis
Как шарики из урны доставали
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Александр Райков
А это чем тестируется?
Сэмплируется выборка из значений различий.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
btw, не рекомендуется использовать ранговые критерии на больших выборках
просто потому что когда рангов мало, внятно разделить группы по общему рангу в упорядоченном ряду сложно
источник

АР

Александр Райков in R language and Statistical data analysis
Philipp Upravitelev
btw, не рекомендуется использовать ранговые критерии на больших выборках
просто потому что когда рангов мало, внятно разделить группы по общему рангу в упорядоченном ряду сложно
1) где это написано? 2) а зачем их делить? Связанные ранги усредняются, да и все
источник

АР

Александр Райков in R language and Statistical data analysis
Бред про выборки от 60 человек был написан в бредовой книге Сидоренко, причём она сама писала это с объяснением, что такие выборки замучаешься ранжировать вручную, книга была докомпьютерной
источник

АР

Александр Райков in R language and Statistical data analysis
А потом ее умники из Интернета стали передирать не читая, как будто нельзя и все
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Александр Райков
1) где это написано? 2) а зачем их делить? Связанные ранги усредняются, да и все
я видел в некоторых учебниках, точно не воспроизведу в каких
притом не русскоязычных, если вдруг вы мне про сидоренко хотите сказать
источник

АР

Александр Райков in R language and Statistical data analysis
И у Митиной было написано, что большое количество ранговых связок искажает аппроксимацию (!) распределения Манна-Уитни нормальным на больших выборках. Во-первых, только при условии попадания ранговых связок в разные группы, во-вторых, проверял расхождения, сравнивая с Exact. Только в области незначимому что-то чуть видно
источник

АР

Александр Райков in R language and Statistical data analysis
Philipp Upravitelev
я видел в некоторых учебниках, точно не воспроизведу в каких
притом не русскоязычных, если вдруг вы мне про сидоренко хотите сказать
Буду благодарен посмотреть
источник

АР

Александр Райков in R language and Statistical data analysis
На Laerd такого нет
источник

АР

Александр Райков in R language and Statistical data analysis
У Andy Field тоже не видел
источник

АР

Александр Райков in R language and Statistical data analysis
Ну в целом, возвращаясь к вопросу «Где брать данные для...» - проще запросить  Интернет название статистического теста по-английски и все
источник

АР

Александр Райков in R language and Statistical data analysis
Что-то годное точно выдаст
источник
2020 March 14

A

A in R language and Statistical data analysis
Александр Райков
Ну в целом, возвращаясь к вопросу «Где брать данные для...» - проще запросить  Интернет название статистического теста по-английски и все
Google dataset search же?
@EugeneTomilov
источник

LN

Leo Nikitin in R language and Statistical data analysis
Alexander Semenov
На основе этой таблицы с услугами и под-услугами, мне нужно произвести следующее преобразование в данных:
tobe <- asis %>% mutate(srvc = as.character(.[['srvc']])) %>%
 group_by(id) %>% mutate(nr = row_number(), srvc = ifelse(nr == 1, srvc, NA)) %>%
 select(id, srvc)
источник