AM
Вопрос по multi-label классификации. Есть вот такая задача на kaggle: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/overview Для каждого текста нужно предсказать одну или несколько категорий.
У меня другие тексты (на русском, к слову), но задача та же – нужно проставить от 0 до 12 меток.
Мой вопрос в следующем: После predict для какого-то текста я получаю список вероятностей для каждой категории. Как мне перевести эти вероятности в метки? Конечному же пользователю эти вероятности без надобности, ему нужно 1/0 ситуация – вот этот текст на входе, он относится к данной категории или нет? А вот к той? Т. е. ситуация не вероятностная для обычного пользователя, а строго бинарная: метка либо есть, либо ее нет.
Скажем у меня есть вероятности (для 3-х меток, не будем пока про 12 говорить): 0,01; 0,5; 0,4. Понятно, что первой метки тут не должно быть? А что делать со второй и третьей? Ставить только вторую? Или вторую и третью? А если вероятности были бы такие: 0,01; 0,6; 0,65? А если 0,01; 0,3; 0,55?
Есть какой-то общепринятый механизм «схлопывания» таких вероятностных предсказаний в ситуацию «0/1»?