Size: a a a

R language and Statistical data analysis

2020 March 13

ЕТ

Евгений Томилов in R language and Statistical data analysis
О, прикольно.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Евгений Томилов
И ирисы. И машинки. 😁
Ну и инсектициды, а потом уже свои датасеты должны быть :)
источник

АР

Александр Райков in R language and Statistical data analysis
Евгений Томилов
А какие датасеты посоветовали бы для набивания руки в статистике? Чтобы дать человеку, а он такой выбрал, какой тут надо тест делать и зачем, а потом объяснил. На 2 и >3 групп.
На 2 и 3 группы лучше брать сеты поменьше
источник

АР

Александр Райков in R language and Statistical data analysis
Если задача пока в обучении Анове или Манну-Уитни, то на многосотенных данных будет куча значимых срабатываний слабых эффектов
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Это да, спасибо.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Александр Райков
Если задача пока в обучении Анове или Манну-Уитни, то на многосотенных данных будет куча значимых срабатываний слабых эффектов
Многосотенных в плане наблюдений? Это как?
источник

АР

Александр Райков in R language and Statistical data analysis
Плюс в Титанике половина, если не большая часть задачи заключается в подготовке данных, извлечении признаков из входных переменных, а не в статистике
источник

АР

Александр Райков in R language and Statistical data analysis
Александр [capsula]
Многосотенных в плане наблюдений? Это как?
На Титанике плавало примерно 1500 человек
источник

АР

Александр Райков in R language and Statistical data analysis
При такой выборке даже корреляция меньше 0,1 по модулю значимой выскочит
источник

АР

Александр Райков in R language and Statistical data analysis
Плюс Титаник в принципе не про выборочное исследование, поэтому прикручивать к нему p малокорректно
источник

А[

Александр [capsula] in R language and Statistical data analysis
Александр Райков
При такой выборке даже корреляция меньше 0,1 по модулю значимой выскочит
Это с поправкой или без? И насколько хорошо в задаче прогноза такая корреляция себя покажет?
источник

АР

Александр Райков in R language and Statistical data analysis
Александр [capsula]
Это с поправкой или без? И насколько хорошо в задаче прогноза такая корреляция себя покажет?
Без, но там и переменных мало
источник

А[

Александр [capsula] in R language and Statistical data analysis
Но я не про Титаник конкретно. Почему многосотенные исследования плохо?
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Александр [capsula]
Но я не про Титаник конкретно. Почему многосотенные исследования плохо?
Потому что современные тесты слишком чувствительные.
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Точнее, на малых выборках они недостаточно чувствительные, а на больших слишком.
источник

АР

Александр Райков in R language and Statistical data analysis
Александр [capsula]
Но я не про Титаник конкретно. Почему многосотенные исследования плохо?
Многосотенные исследования не плохи, а требуют скептичнее относиться к статистической значимости в силу того, что а) логика проверки гипотез в статистике исходит из того, что чем больше выборка, тем больше уверенности а неслучайном возникновении результата, б) практически ни в какой науке нельзя обеспечить честное выборочное исследование со случайным набором. И в силу примешивания побочных различий, срабатывает на значимость что-нибудь не то
источник

А[

Александр [capsula] in R language and Statistical data analysis
Евгений Томилов
Точнее, на малых выборках они недостаточно чувствительные, а на больших слишком.
То есть Вилкоксон на большой выборке может... найти отличия там где их нет? Или наоборот?
источник

АР

Александр Райков in R language and Statistical data analysis
Евгений Томилов
Точнее, на малых выборках они недостаточно чувствительные, а на больших слишком.
Причём здесь современные тесты? Так с любыми будет, и со Стьюдентом столетним
источник

А[

Александр [capsula] in R language and Statistical data analysis
Александр Райков
Многосотенные исследования не плохи, а требуют скептичнее относиться к статистической значимости в силу того, что а) логика проверки гипотез в статистике исходит из того, что чем больше выборка, тем больше уверенности а неслучайном возникновении результата, б) практически ни в какой науке нельзя обеспечить честное выборочное исследование со случайным набором. И в силу примешивания побочных различий, срабатывает на значимость что-нибудь не то
Но ведь чем меньше выборка, тем меньше вероятность, что она случайна, опять же, исходя из практики
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Александр Райков
Причём здесь современные тесты? Так с любыми будет, и со Стьюдентом столетним
Простите, я имел в виду "те, которые используются сейчас".
источник