А какие требования на инференс модели, и как Вы препроцессите текст перед тем, как его скормить?
извините, не заметил сообщение. если ещё актуально...
инференс: не гонюсь за скоростью (пока что). без оптимизаций фичи извлекаются примерно со скоростью 3-4 документа в секунду (зависит от размера текстовой части и количества изображений; тестировал пока только на коротких тестах). вместо скорости целюсь в минимизацию занимаемой памяти и дискового пространства, как следствие - в возможность запускать на слабых машинах. под вопросом остаётся выбор алгоритма поиска по векторам - пока в тестовых целях использую bruteforce-поиск, но планирую использовать Annoy (в основном потому что эта библиотека позволяет строить и хранить индексы на диске и является кроссплатформенной).
препроцессинг текста: в итоге я перешёл с LASER на Multilingual Universal Sentence Encoder от гугла, так как эта модель работает шустрее. гугл велел особо о препроцессинге не париться, мол предобученная модель всё сделает сама, но я всё же разбиваю текст на параграфы в среднем около 10 тыс. символов (не SentencePiece-токенов, которыми оперирует модель), и обрабатываю только первые 1000 таких параграфов в документе. векторы параграфов потом усредняю.