Size: a a a

R language and Statistical data analysis

2020 March 13

А[

Александр [capsula] in R language and Statistical data analysis
10 человек - группа студентов, 100 - уже курс, 1000 - университет - 10 миллионов уже государство
источник

A

Andrey in R language and Statistical data analysis
Александр [capsula]
Но ведь чем меньше выборка, тем меньше вероятность, что она случайна, опять же, исходя из практики
попробуй применить это к единичному подбрасыванию монеты
источник

А[

Александр [capsula] in R language and Statistical data analysis
Andrey
попробуй применить это к единичному подбрасыванию монеты
Оу, наоборот имел в виду
источник

А[

Александр [capsula] in R language and Statistical data analysis
Чем меньше выборка, тем менее она не случайна
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Александр [capsula]
То есть Вилкоксон на большой выборке может... найти отличия там где их нет? Или наоборот?
Ну, да. А ещё Вилкоксон на большой выборке сломается, потому что будет очень много повторов рангов.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Евгений Томилов
Ну, да. А ещё Вилкоксон на большой выборке сломается, потому что будет очень много повторов рангов.
Это уже от рангов зависит :)
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Поправьте, если я не прав.
источник

A

Andrey in R language and Statistical data analysis
Александр [capsula]
Чем меньше выборка, тем менее она не случайна
тоже не очень утверждение. Все зависит от способа формирования выборки
источник

A

Andrey in R language and Statistical data analysis
можно 10 человек выбрать случайно, а можно 10 тыс. - тенденциозно
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Тут скорее можно сказать, что, чем меньше выборка, тем меньше вероятность, что параметры приближающего её распределения будут соответствовать параметрам распределения генеральной совокупности.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Так или иначе не понимаю, почему многосотенные датасеты плохи
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Александр [capsula]
Так или иначе не понимаю, почему многосотенные датасеты плохи
Они хороши, но надо быть более острожным и понимать, какой размер эффекта мы ищем. На 100000 выборке найдётся и очень незначительный по размеру эффект, который как бы и есть "на самом деле", но по факту является чем-то вроде "ели в среднем на 0.0001 миллиметр выше берез".
источник

A

Andrey in R language and Statistical data analysis
Александр [capsula]
Так или иначе не понимаю, почему многосотенные датасеты плохи
да все с ними хорошо
источник

А[

Александр [capsula] in R language and Statistical data analysis
Евгений Томилов
Они хороши, но надо быть более острожным и понимать, какой размер эффекта мы ищем. На 100000 выборке найдётся и очень незначительный по размеру эффект, который как бы и есть "на самом деле", но по факту является чем-то вроде "ели в среднем на 0.0001 миллиметр выше берез".
Ну так дело в размере эффекта, да
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Андрей выше всё верно говорит.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Если такой размер интересует и он есть, найдется (или нет)
источник

A

Andrey in R language and Statistical data analysis
Евгений Томилов
Тут скорее можно сказать, что, чем меньше выборка, тем меньше вероятность, что параметры приближающего её распределения будут соответствовать параметрам распределения генеральной совокупности.
более того, на маленькой выборке вообще можно не понять, какую форму имеет распределение и какие параметры его корректно описывают
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Andrey
более того, на маленькой выборке вообще можно не понять, какую форму имеет распределение и какие параметры его корректно описывают
+++
источник

А[

Александр [capsula] in R language and Statistical data analysis
А это к Александру скорее вопрос
источник

A

Andrey in R language and Statistical data analysis
Это все проблемы репрезентативности, если точно знаешь, что в генеральной совокупности гауссиана, то это одно, а если распределение мультимодальное и с тяжелыми хвостами, то надо все участки этой кривули покрыть хоть каким-то количеством наблюдений
источник