Size: a a a

R language and Statistical data analysis

2020 March 16

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Ну число переболевших.
источник

AA

A.K. A.K. in R language and Statistical data analysis
Тут как бы такие расчёты будут вероятнее с дов интервалом сильно ошибочны, тк есть показатель Ro и он тоже не стабильный. Данные получатся актуальными здесь и сейчас, но уже в этот или следующий день актуальность данных будет нарушена.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
А какое отношение имеет сравнение 1% с 50% к вопросу? Доверительный интервал на размер выборки, в которой было столько случаев смертей нужен.
Т.е. ответ, что если у нас есть 5 смертей при летальности в 1%, то количество переболевших при 95% доверительном интервале составляет от 40 до 900 человек, например.
источник

ГД

Григорий Демин in R language and Statistical data analysis
Vladimir Volokhonsky
А какое отношение имеет сравнение 1% с 50% к вопросу? Доверительный интервал на размер выборки, в которой было столько случаев смертей нужен.
Т.е. ответ, что если у нас есть 5 смертей при летальности в 1%, то количество переболевших при 95% доверительном интервале составляет от 40 до 900 человек, например.
Да, я не понял из вопроса, что ищется доверительный интервал для 500. А для одного процента prop.test выдает доверительный интервал
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
A.K. A.K.
Тут как бы такие расчёты будут вероятнее с дов интервалом сильно ошибочны, тк есть показатель Ro и он тоже не стабильный. Данные получатся актуальными здесь и сейчас, но уже в этот или следующий день актуальность данных будет нарушена.
Да, это понятно. В ситуации, когда между заболеванием и смертью проходит неизвестное количество дней с неким средним, мы имеем ситуацию когда при расчёте по этим средним сегодня у нас будет больше случайных "завтрашних" смертей, чем "вчерашних", в результате оценка будет несколько завышена.
Но мне бы в принципе понять, как тут доверительный интервал считать.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
В химически чистой ситуации. Мы знаем, что в стране Икс в 1883 году произошла эпидемия болезни Игрек. Летальность болезни Игрек в то время составляла 10%. Всего умерло от болезни Игрек 1000 человек. Сколько всего людей переболело Игреком? Каков доверительный интервал этой оценки?
источник

ГД

Григорий Демин in R language and Statistical data analysis
Vladimir Volokhonsky
А какое отношение имеет сравнение 1% с 50% к вопросу? Доверительный интервал на размер выборки, в которой было столько случаев смертей нужен.
Т.е. ответ, что если у нас есть 5 смертей при летальности в 1%, то количество переболевших при 95% доверительном интервале составляет от 40 до 900 человек, например.
Вроде так: qnbinom(c(.025,.975), 5, .01) получается интервал от 159 до 1017
источник

ГД

Григорий Демин in R language and Statistical data analysis
Но вообще постановка задачи так себе, потому что летальность нельзя узнать, не зная количества заболевших
источник

ГД

Григорий Демин in R language and Statistical data analysis
Хотя может и нормальная постановка:) туплю под вечер..
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Григорий Демин
Вроде так: qnbinom(c(.025,.975), 5, .01) получается интервал от 159 до 1017
Не, тут что-то не так. Так получается доверительный интервал для 5 умерших и 30% летальности от 2 до 26, а заболевших ну никак не может быть меньше, чем умерших. А! Это же наверное количество выздоровевших, а не заболевших?  Success vs fail
источник

ГД

Григорий Демин in R language and Statistical data analysis
Да, из хелпа - "The negative binomial distribution with size = n and prob = p ...  represents the number of failures which occur in a sequence of Bernoulli trials before a target number of successes is reached."
источник

ГД

Григорий Демин in R language and Statistical data analysis
Строго говоря, и число заболевших не может быть меньше 500. Мы же их диагностировали. И тогда у нас получается усеченное негативное биномиальное распределение:
died = 5
ill = 500
death_rate = died/ill
trunc = pnbinom(ill, died, death_rate)
# нормируем верхнюю вероятность исходя из того, что у нас не может быть заболевших меньше чем ill
upper_prob = (1-trunc)*.95 + trunc
qnbinom(upper_prob, size = died, prob = death_rate) + died
# 1044

Все, можно писать статью на Хабр с заголовком "Власти скрывают...":)
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ну хоть вы не разжигайте ##
а то в твиттере вакханалия, а фейсбук открывать для психического здоровья просто вредно ##
источник

ГД

Григорий Демин in R language and Statistical data analysis
Не буду... Тем более мне кажется странным, что кол-во заболевших зависит от смертности. Если мы обнаружили 500 человек, заболевших гриппом, а умер 1, то верхняя оценка доверительного интервала будет другой - это как-то неправильно...
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Весь вопрос в том, что мы не знаем истинной величины летальности. И ещё много чего не знаем. Но нужны какие-то оценки и это вполне себе нормальная и годная.
источник

ГД

Григорий Демин in R language and Statistical data analysis
Вот в том-то и дело, что кол-во заболевших не должно зависеть от летальности
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
почему? оба являются проявлениями какого-то скрытого фактора ведь
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
зависеть нет, но корреляция точно должна быть
источник

A

Andrey in R language and Statistical data analysis
Да нельзя это так среверсинженирить. Есть большая проблема с количеством и качеством тестов, а также с умышленной постановкой неправильных диагнозов
источник

ГД

Григорий Демин in R language and Statistical data analysis
Philipp Upravitelev
зависеть нет, но корреляция точно должна быть
если мы видим только умерших, то да, зависит. Но когда у нас есть количество диагнозов болезни, то кол-во смертей уже не должно влиять на верхнюю оценку кол-ва заболевших. Я просто не понимаю, каким образом оно может повлиять.
источник