Ну во первых text2vec не самая тривиальная задача, BERT ы всякие впихивают 512 токенов, правда есть и поболее спец архитектуры какие то, да и эмбединг текстов это открытая тема, крайние статьи с использованием BERT, от августа 2019 и февраля 2020, я не особо спец в топик моделинг, но вроде они какие то там хитрые штуки делают для выделения темы, плюс у тебя вектор текста будет осознаный и интерпретируемый