Добрый вечер. Не могли бы вы, пожалуйста, подсказать в следующей задаче:
Есть несколько моделей для поиска именованных сущностей (например, только организаций). Есть одни модели с наилучшей прецизиозностью, а другие с наилучшей полнотой.
Отсюда вопрос: можно ли получить лучший результат (F-мера), если каким-то способом ансамблировать две модели (например с наилучшими precision и recall) ? Быть может просто пересечь их результаты.
Есть какие-то исследования, статьи или просто практический опыт по проверке такой методики ?
Мне кажется, сама идея ансамблирования моделей для NER - хорошая.
Другое дело, что эту идею можно декомпозировать на две независимые:
1) Как склеить две модели в одну, потеряв минимум информации?
2) Как настроить модель таким образом, чтобы оптимально сбалансировать precision и recall?
Лично я бы подступился к этой задаче из первых принципов.
Большинство моделей для sequence labeling - вероятностные. Следовательно:
1) ансамблировать модели можно, просто усреднив предсказанные ими вероятности с какими-то весами (веса надо будет подобрать по сетке или выбрать интуитивно)
2) чтобы повлиять на precision/recall полученной модели, надо домножить предсказанные вероятности каждого класса на какие-то константы, отражающие важность ложноположительных и ложноотрицательных срабатываний.
Вот теоретический пост про правильное балансирование предсказаний вероятностного классификатора:
http://www.machinelearning.ru/wiki/index.php?title=Байесовский_классификатор