Size: a a a

R language and Statistical data analysis

2020 April 20

SK

Stanislav Kurpe in R language and Statistical data analysis
Александр Райков
Объясните зависимые и независимые метрики исследования
Да, все верно
источник

АР

Александр Райков in R language and Statistical data analysis
Фактически z-тест - это абсолютно тот же Стьюдент по расчёту (измерить в стандартных отклонения различие между ожидаемым и эмпирическим средним или между двумя средними), только с другим квантилем 0,05.
источник

DP

Dmitry Penzar in R language and Statistical data analysis
Александр Райков
Если его нет, то 30 наблюдений уже позволяют оценить нормальность Лиллиефорсом или Шапиро-Уилком. Про z-тест вообще не понял в этой ситуации. Что к чему здесь сходится?
И ztest и ttest сравнивают средние. Ztest позволяет цпт использовать (где-то с 40).
источник

SK

Stanislav Kurpe in R language and Statistical data analysis
Александр Райков
Ну да. Что вообще не подлежит статистической проверке. А сколько там пробирок?
2 эксперимента

по сути 4 пробирки
источник

SK

Stanislav Kurpe in R language and Statistical data analysis
Andrey
вот если бы пробирки оказались 96-луночными плашками... Или 384-луночными :)
Эх, если бы так


Но денег бы на это точно не дали
источник

АР

Александр Райков in R language and Statistical data analysis
Dmitry Penzar
И ztest и ttest сравнивают средние. Ztest позволяет цпт использовать (где-то с 40).
У вас какая-то путаница. Если у меня нормальное распределение в генеральной совокупности и известна генеральная дисперсия, то распределение выборочной средней можно оценивать с помощью параметров нормального распределения независимо от размера выборки. Если мне известно о нормальности, но неизвестно генеральной дисперсии, то при малых выборках использование выборочной дисперсии вместо генеральной приводит к распределению Стьюдента вместо нормального (хвосты тяжелее). С ростом размера выборки распределение Стьюдента сходится к нормальному в силу ЦПТ
источник

A

Andrey in R language and Statistical data analysis
Артём Клевцов
dplyr-cli
cat mtcars.csv | group_by cyl | summarise "mpg = mean(mpg)" | kable
#> | cyl|      mpg|
#> |---:|--------:|
#> |   4| 26.66364|
#> |   6| 19.74286|
#> |   8| 15.10000|

https://coolbutuseless.github.io/2020/04/20/manipulate-csv-files-on-the-command-line-with-dplyr-cli/
скоро миллениалы изобретут SQL!
источник

SK

Stanislav Kurpe in R language and Statistical data analysis
Andrey
№_пробирки белок_1 белок_2 ... белок_n
1 0 0 ... 0.12
2 0.23 0 ... 0
такое что-то
вместо цифр названия белков
источник

A

Andrey in R language and Statistical data analysis
Stanislav Kurpe
Эх, если бы так


Но денег бы на это точно не дали
наука такая наука
источник

АР

Александр Райков in R language and Statistical data analysis
Stanislav Kurpe
2 эксперимента

по сути 4 пробирки
А условия в пробирках попарно одинаковые?
источник

SK

Stanislav Kurpe in R language and Statistical data analysis
Александр Райков
А условия в пробирках попарно одинаковые?
Да конечно
источник

АР

Александр Райков in R language and Statistical data analysis
ну тогда 2 степени свободы всё-таки есть, может, что и получится
источник

АР

Александр Райков in R language and Statistical data analysis
так зависимая переменная - это экспрессия отдельно взятого белка?
источник

АР

Александр Райков in R language and Statistical data analysis
она в метрической шкале меряется, я так понимаю
источник

A

Andrey in R language and Statistical data analysis
Александр Райков
ну тогда 2 степени свободы всё-таки есть, может, что и получится
ничего не получится
источник

DP

Dmitry Penzar in R language and Statistical data analysis
Александр Райков
У вас какая-то путаница. Если у меня нормальное распределение в генеральной совокупности и известна генеральная дисперсия, то распределение выборочной средней можно оценивать с помощью параметров нормального распределения независимо от размера выборки. Если мне известно о нормальности, но неизвестно генеральной дисперсии, то при малых выборках использование выборочной дисперсии вместо генеральной приводит к распределению Стьюдента вместо нормального (хвосты тяжелее). С ростом размера выборки распределение Стьюдента сходится к нормальному в силу ЦПТ
У меня путаницы нет.

"С ростом размера выборки распределение Стьюдента сходится к нормальному в силу ЦПТ" ??
Не в силу ЦПТ. Сходится в силу другой теоремы (забыл как называется) из-за того, что у вас выборочная дисперсия сходится к дисперсии генеральной совокупности


С ростом же размера выборки одновременно происходит следующая вещь - каким бы не было распределение генеральной совокупности (если выполнены условия ЦПТ), среднее сходится к нормальному (как раз по ЦПТ). При этом на числах, когда мы считаем, что сошлось среднее к нормальному, у нас уже считается, что сошлась и выборочная дисперсия (к дисперсии генеральной совокупности).
источник

A

Andrey in R language and Statistical data analysis
Dmitry Penzar
У меня путаницы нет.

"С ростом размера выборки распределение Стьюдента сходится к нормальному в силу ЦПТ" ??
Не в силу ЦПТ. Сходится в силу другой теоремы (забыл как называется) из-за того, что у вас выборочная дисперсия сходится к дисперсии генеральной совокупности


С ростом же размера выборки одновременно происходит следующая вещь - каким бы не было распределение генеральной совокупности (если выполнены условия ЦПТ), среднее сходится к нормальному (как раз по ЦПТ). При этом на числах, когда мы считаем, что сошлось среднее к нормальному, у нас уже считается, что сошлась и выборочная дисперсия (к дисперсии генеральной совокупности).
Теорема Чебышева, наверное
источник

A

Andrey in R language and Statistical data analysis
если рассматривать выборочную дисперсию как случайную величину, то она тут применима
источник

АР

Александр Райков in R language and Statistical data analysis
Dmitry Penzar
У меня путаницы нет.

"С ростом размера выборки распределение Стьюдента сходится к нормальному в силу ЦПТ" ??
Не в силу ЦПТ. Сходится в силу другой теоремы (забыл как называется) из-за того, что у вас выборочная дисперсия сходится к дисперсии генеральной совокупности


С ростом же размера выборки одновременно происходит следующая вещь - каким бы не было распределение генеральной совокупности (если выполнены условия ЦПТ), среднее сходится к нормальному (как раз по ЦПТ). При этом на числах, когда мы считаем, что сошлось среднее к нормальному, у нас уже считается, что сошлась и выборочная дисперсия (к дисперсии генеральной совокупности).
Насчёт теорем, возможно, Вы правы (надо посмотреть), но в плане практического применения - точно путаница

Если у меня выборка в 40, то применять Стьюдента и применять z-тест - это просто практически одно и то же, так как распределение Стьюдента с 30+ степенями свободы едва отличимо от нормального (ну уж больше 60 точно). Странно слышать, что z даст нечто лучшее в силу некоей сходимости.
источник

DP

Dmitry Penzar in R language and Statistical data analysis
Александр Райков
Насчёт теорем, возможно, Вы правы (надо посмотреть), но в плане практического применения - точно путаница

Если у меня выборка в 40, то применять Стьюдента и применять z-тест - это просто практически одно и то же, так как распределение Стьюдента с 30+ степенями свободы едва отличимо от нормального (ну уж больше 60 точно). Странно слышать, что z даст нечто лучшее в силу некоей сходимости.
Простите, но путаницы нет. Применять можете что хотите. Вы обосновывали неверно
источник