Новости, категории, треды и топ запускаются на одном и том же наборе статей. Поэтому такое невозможно, чтобы статьи не были добавлены только в тредах и топе.
Ваша работа запускалась на расширенном наборе статей с добавленными статьями на противоположном языке. Эти дополнительные статьи не выводятся на сайте, но их можно увидеть, если посмотреть raw output алгоритма в новостях и категориях:
https://entry1187-dcround1.usercontent.dev/20200214/news/ru/output.txthttps://entry1187-dcround1.usercontent.dev/20200214/categories/ru/output.txt(дополнительная статья имеет название файла 0000000000000001.html)
Статья 0000000000000001.html, добавленная в русский датасет, это копия английской статьи
https://data-static.usercontent.dev/sampledata/20200214/08/1039296989948122896.html Датасеты доступны публично, поэтому Вы можете взять русский датасет
https://data-static.usercontent.dev/DataClusteringDataset0214En.tar.gz, добавить туда статью
https://data-static.usercontent.dev/sampledata/20200214/08/1039296989948122896.html, переименовав ее в 0000000000000001.html для чистоты эксперимента, и запустить свой алгоритм.