Добрый день!
Надеюсь, вопрос уместен (он скорее фундаментальный для машинного обучения в целом, но скорее всего ответ зависит от используемых методов, моделей):
Стоит ли использовать при обучении дополнительные данные label (y), то есть предсказываемых значений, которые в не нужно предсказывать? Может ли это повысить точность модели?
Пока, к сожалению, не могу назвать датасет (сроки подачи решений еще не завершились, наверное, это неэтично). В любом случае, участвую только ради опыта.
Фактически нужно предсказать Да или Нет, но есть дополнительная количественная информация по выходным данным.
Попробую описать гипотетическую задачу: если бы речь шла о предсказании интересна пользователю User1 новость A, или нет (по сути у категории только 2 возможных значения), то стоит ли при обучении модели добавлять какие либо доступные данные например учить модель по данным Интересна(1 или 0, это собственно и нужно предсказать), время_просмотра_новости(количество минут).
Мне кажется, что такая информация в предсказываемых данных может повысить точность классификации, но уверенности нет, из прочитанной литературы к сожалению не могу вспомнить, советуют ли такое и тем более в каких случаях это стоит делать...
Сразу скажу, что вполне отдаю себе отчет, что есть более очевидный вариант: конечно, можно наоборот агрегировать подобные данные и использовать как входные: к примеру очевидно, что можно ввести дополнительные поля (как часто этот юзер читает новости, как много на них времени тратит, как часто эту новость читают итд). В этом плане вопросов по сути нет, уверен что такой подход пойдет на пользу.
А вот по поводу первого варианта (тренировка на предсказание 1+n значений и категорий чтобы предсказать только одну категорию) очень хотелось бы узнать, насколько такой подход адекватен?
Простите за избыточный текст. Спасибо!