Size: a a a

R language and Statistical data analysis

2017 October 07

A

Alexandr M in R language and Statistical data analysis
Konstantin Panfilov
в моем понимании вклады моделей - это вектор а, где
z (точки на графике) = a1 * y1 + ... + an * yn
надо узнать у того кто задачу ставит тогда, что он имеет ввиду
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
вы используете лайклихуд как обычную метрику качества (которая не факт, что в данной задаче лучшая), а насколько я понял автора - ему интересна именно смесь моделей. Ждем уточнений
источник

A

Alexandr M in R language and Statistical data analysis
у какой модели  "вклад" больше - у "качественной" или "не качественной"?
источник

A

Alexandr M in R language and Statistical data analysis
нужно внести ясность в оба этих понятния и вообще в формулировку задачи
источник

A

Alexandr M in R language and Statistical data analysis
.. судя по картинке, автор спрашивает - как для каждого наблюдения на графике посчитать какая из перечисленных моделей лучше описывает  это наблюдение (?)
источник

A

Alexandr M in R language and Statistical data analysis
Тогда всё просто - для каждой модели из списка можно посчитать выбранную метрику "качества/вклада" для этих наблюдений на графиках. Если likelihood не нравится, то можно на то что нравится.
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
Alexandr M
у какой модели  "вклад" больше - у "качественной" или "не качественной"?
если речь идёт о смеси - то это очевидно не так
источник

A

Alexandr M in R language and Statistical data analysis
что не так?
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
предположим, у нас один предикат x, пусть 1:10
y - отклик, 81:90

две модели:
y1 = 80 + 0 * x
y2 = 0 + x

Видно, что llh у них разные, но лучшая смесь из них будет только при рав-ве весов: y = y1 + y2
источник

A

Alexandr M in R language and Statistical data analysis
ясное дело
источник

A

Alexandr M in R language and Statistical data analysis
как теперь посчитать "вклад" каждой модели?
источник

A

Alexandr M in R language and Statistical data analysis
И к тому же взгляните на картинку, что автор вопроса запостил - там лучше всего будет иметь несколько моделей - каждая для своего subset от всего data set. Смесь даст какую-то одну линию, которая будет одинакова плоха для большинства наблюдений.
источник

A

Alexandr M in R language and Statistical data analysis
... ну по крайне мере для того случая что слева
источник

A

Alexandr M in R language and Statistical data analysis
> Видно, что llh у них разные, но лучшая смесь из них будет только при рав-ве весов: y = y1 + y2

Да, и llh для неё (смеси) будет больше. Короче нужно определение того, что такое "вклад". Это может быть например explained variance, или ещё что-то.
источник

KP

Konstantin Panfilov in R language and Statistical data analysis
перечитал вопрос - думаю, я его не совсем верно понял
в общем случае, это действительно похоже на поиск смеси распределений, только не в том понятии, в котором мы о нем говорили, а в правильном

в теории плаваю, но я бы предложил почитать следующее:
https://en.wikipedia.org/wiki/Mixture_distribution

https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm

по сути решается задача кластеризации, где на выходе для каждого объекта будет принадлежность тому или иному классу (в данной задаче модели)
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
источник

ЭА

Эдик Амперян in R language and Statistical data analysis
Konstantin Panfilov
перечитал вопрос - думаю, я его не совсем верно понял
в общем случае, это действительно похоже на поиск смеси распределений, только не в том понятии, в котором мы о нем говорили, а в правильном

в теории плаваю, но я бы предложил почитать следующее:
https://en.wikipedia.org/wiki/Mixture_distribution

https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm

по сути решается задача кластеризации, где на выходе для каждого объекта будет принадлежность тому или иному классу (в данной задаче модели)
Если вопрос действительно в разделении смеси распределений, то можно попробовать пакет 'mclust'. Я им пользовался для разделения смеси (нахождения количества типов и пропорции распределения каждого типа в общей смеси) гранулометрического состава в предположении, что в смеси только нормальные распределения (лабораторный метод измерения грансостава опирается на решение обратной задачи с таким же допущением, потому меня это устраивало).
источник
2017 October 08

AC

Andrey C. in R language and Statistical data analysis
Спасибо большое за ответы, сорри, что я медленно реагирую. Речь идёт о том, что предположительно каждая из моделей лучше всего предсказывает какую-то долю наблюдений. Например, модели y=0 и y=180 очевидно хорошо объясняют часть наблюдений на первом графике и гораздо хуже на втором. Смесь (mixture) выглядит движением в правильном направлении. Я пробовал flexmix , но там кластеры наблюдений задаются под общую модель, а не под набор отдельных моделей .
источник

A

Alexandr M in R language and Statistical data analysis
Andrey C.
Спасибо большое за ответы, сорри, что я медленно реагирую. Речь идёт о том, что предположительно каждая из моделей лучше всего предсказывает какую-то долю наблюдений. Например, модели y=0 и y=180 очевидно хорошо объясняют часть наблюдений на первом графике и гораздо хуже на втором. Смесь (mixture) выглядит движением в правильном направлении. Я пробовал flexmix , но там кластеры наблюдений задаются под общую модель, а не под набор отдельных моделей .
По мне так это больше похоже на hierarchical model, чем на mixture model.
источник

AC

Andrey C. in R language and Statistical data analysis
Иерархия предполагает общую модель, а не взаимоисключающие вроде бы. Ну или как бы вы это в рамках иерархии сформулировали бы?
источник