Хочется высказаться, но так как о предметной области у меня знание типичного прохожего с улицы, то промолчу 😊))))
В любом случае, если будут какие-то наработки и где-то что-то можно будет поправить/оптимизировать/доработать, то будет интересно помочь.
Просто возвращаясь к тому, что я говорил вначале - просто чтение статей/книг недостаточно. Вот например в книжке "АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ И КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА" есть целая Часть V глава 2 про методы классификации без учителя. Ну и как бы в Julia есть Clustering.jl в котором все эти методы реализованы. Что с ними делать, и как это может помочь в практической задаче NLP - неясно.