Тут скорее можно сказать, что, чем меньше выборка, тем меньше вероятность, что параметры приближающего её распределения будут соответствовать параметрам распределения генеральной совокупности.
Так или иначе не понимаю, почему многосотенные датасеты плохи
Они хороши, но надо быть более острожным и понимать, какой размер эффекта мы ищем. На 100000 выборке найдётся и очень незначительный по размеру эффект, который как бы и есть "на самом деле", но по факту является чем-то вроде "ели в среднем на 0.0001 миллиметр выше берез".
Они хороши, но надо быть более острожным и понимать, какой размер эффекта мы ищем. На 100000 выборке найдётся и очень незначительный по размеру эффект, который как бы и есть "на самом деле", но по факту является чем-то вроде "ели в среднем на 0.0001 миллиметр выше берез".
Тут скорее можно сказать, что, чем меньше выборка, тем меньше вероятность, что параметры приближающего её распределения будут соответствовать параметрам распределения генеральной совокупности.
более того, на маленькой выборке вообще можно не понять, какую форму имеет распределение и какие параметры его корректно описывают
Это все проблемы репрезентативности, если точно знаешь, что в генеральной совокупности гауссиана, то это одно, а если распределение мультимодальное и с тяжелыми хвостами, то надо все участки этой кривули покрыть хоть каким-то количеством наблюдений