В таких марафонах не участвую, не спортсмен)
Только одну эту задачу можно пол года мусолить, чтобы добиться качества:
Актуальность для английского раздела
" Как правило, такие новости освещаются широким кругом изданий из самых разнообразных регионов."
Просто так опираясь только на число публикаций по сюжету в разных СМИ ненадежная практика. Это значит, что каждое сми должно быть заранее оценено к какому региону относится и насколько оно значимое в локальном и глобальном смысле. 10 публикаций в топовых авторитетных СМИ неравнозначны даже 100 публикациям в мелких неавторитетных СМИ. И коэффициент неравнозначности - вероятно предмет научных исследований.
100 американских сми могут продублировать чисто американскую новость, которая кроме америкосов никому не нужна, и наоборот глобально важную новость опубликует лишь 100 топовых ресурсов из разных стран. Но если не знать, что ресурсы находятся в разных странах, то не получится определить глобальную ценность информации, опираясь лишь на число ресурсов.
Что все это значит в конкурсе. Условно тестовый датасет содержит 1000 сми разных регионов с разбросом (60% usa 20% euro 20% others). Это значит что достоверную глобальность новости уже не определить. Значит алгоритм нужно тестировать на полном списке источников с региональной привязкой, чтобы не было перекосов.
По факту нужно не только иметь знания о регионе СМИ, но и нужно определение каждой новости к Стране, Городу. У страны и городов само собой свои факторы значимости.
Это событие отнесено как не актуальное:
Made in Qatar 2020’ expo to open in Kuwait
однако по факту числа публикаций и освещенности в СМИ это может быть очень глобальным и крупным событием в мире бизнеса типа как expo 2020. К вопросу, а судьи кто?Человек или агрегатор? К тому что нельзя просто разметить в датасете, что именно такие статьи не показывать.