слушайте, а зачем всякие бигартм и прочие топик-моделлинги, когда можно сделать doc2vec, потом кластеризовать получившиеся эмбеддинги, потом в каждом тексте отфильтровать по tf-idf самые значимые слова или n-gram-ы, и потом взять топ наиболее частотных в кластере - получить ту самую тему в виде bag-of-words?
кстати, даже может быть лучше взвесить по tf-idf относительно кластеров, а не текстов