Телеграмм чат группы rlang

А какие датасеты посоветовали бы для набивания руки в статистике? Чтобы дать человеку, а он такой выбрал, какой тут надо тест делать и зачем, а потом объяснил. На 2 и >3 групп.

На 2 и 3 группы лучше брать сеты поменьше

источник

21:44пожаловаться #3

АР

Александр Райков in R language and Statistical data analysis

Если задача пока в обучении Анове или Манну-Уитни, то на многосотенных данных будет куча значимых срабатываний слабых эффектов

источник

21:46пожаловаться #4

ЕТ

Евгений Томилов in R language and Statistical data analysis

Это да, спасибо.

источник

21:47пожаловаться #5

А[

Александр [capsula] in R language and Statistical data analysis

Александр Райков

Если задача пока в обучении Анове или Манну-Уитни, то на многосотенных данных будет куча значимых срабатываний слабых эффектов

Многосотенных в плане наблюдений? Это как?

источник

21:48пожаловаться #6

АР

Александр Райков in R language and Statistical data analysis

Плюс в Титанике половина, если не большая часть задачи заключается в подготовке данных, извлечении признаков из входных переменных, а не в статистике

источник

21:48пожаловаться #7

АР

Александр Райков in R language and Statistical data analysis

Александр [capsula]

Многосотенных в плане наблюдений? Это как?

На Титанике плавало примерно 1500 человек

источник

21:48пожаловаться #8

АР

Александр Райков in R language and Statistical data analysis

При такой выборке даже корреляция меньше 0,1 по модулю значимой выскочит

источник

21:49пожаловаться #9

АР

Александр Райков in R language and Statistical data analysis

Плюс Титаник в принципе не про выборочное исследование, поэтому прикручивать к нему p малокорректно

источник

21:49пожаловаться #10

А[

Александр [capsula] in R language and Statistical data analysis

Александр Райков

При такой выборке даже корреляция меньше 0,1 по модулю значимой выскочит

Это с поправкой или без? И насколько хорошо в задаче прогноза такая корреляция себя покажет?

источник

21:50пожаловаться #11

АР

Александр Райков in R language and Statistical data analysis

Александр [capsula]

Это с поправкой или без? И насколько хорошо в задаче прогноза такая корреляция себя покажет?

Без, но там и переменных мало

источник

21:50пожаловаться #12

А[

Александр [capsula] in R language and Statistical data analysis

Но я не про Титаник конкретно. Почему многосотенные исследования плохо?

источник

21:51пожаловаться #13

ЕТ

Евгений Томилов in R language and Statistical data analysis

Александр [capsula]

Но я не про Титаник конкретно. Почему многосотенные исследования плохо?

Потому что современные тесты слишком чувствительные.

источник

21:51пожаловаться #14

ЕТ

Евгений Томилов in R language and Statistical data analysis

Точнее, на малых выборках они недостаточно чувствительные, а на больших слишком.

источник

21:52пожаловаться #15

АР

Александр Райков in R language and Statistical data analysis

Александр [capsula]

Но я не про Титаник конкретно. Почему многосотенные исследования плохо?

Многосотенные исследования не плохи, а требуют скептичнее относиться к статистической значимости в силу того, что а) логика проверки гипотез в статистике исходит из того, что чем больше выборка, тем больше уверенности а неслучайном возникновении результата, б) практически ни в какой науке нельзя обеспечить честное выборочное исследование со случайным набором. И в силу примешивания побочных различий, срабатывает на значимость что-нибудь не то

источник

21:54пожаловаться #16

А[

Александр [capsula] in R language and Statistical data analysis

Евгений Томилов

Точнее, на малых выборках они недостаточно чувствительные, а на больших слишком.

То есть Вилкоксон на большой выборке может... найти отличия там где их нет? Или наоборот?

источник

21:55пожаловаться #17

АР

Александр Райков in R language and Statistical data analysis

Евгений Томилов

Точнее, на малых выборках они недостаточно чувствительные, а на больших слишком.

Причём здесь современные тесты? Так с любыми будет, и со Стьюдентом столетним

источник

21:55пожаловаться #18

А[

Александр [capsula] in R language and Statistical data analysis

Александр Райков

Многосотенные исследования не плохи, а требуют скептичнее относиться к статистической значимости в силу того, что а) логика проверки гипотез в статистике исходит из того, что чем больше выборка, тем больше уверенности а неслучайном возникновении результата, б) практически ни в какой науке нельзя обеспечить честное выборочное исследование со случайным набором. И в силу примешивания побочных различий, срабатывает на значимость что-нибудь не то

Но ведь чем меньше выборка, тем меньше вероятность, что она случайна, опять же, исходя из практики

источник

21:56пожаловаться #19

ЕТ

Евгений Томилов in R language and Statistical data analysis

Александр Райков

Причём здесь современные тесты? Так с любыми будет, и со Стьюдентом столетним

Простите, я имел в виду "те, которые используются сейчас".

источник

21:57пожаловаться #20