Датасета для тренировки нет, но это дело более-менее поправимое — не так уж и долго руками пройтись по новостям на 3-4 разных сайтах и выделить одни и те же, либо из агрегаторов взять. Моя проблема в том что я не умею в машоб, поэтому хочу как-то обойтись классическими алогритмами.
Применение — все то же: сравнивать короткие новостные ленты и объединять новости по теме.