Привет.
Подскажте, куда копать? Может есть готовые решения, чтобы не набить шишек.
Решаю задачу NER, но хотелось бы не размечать тексты, а искать по словарю. Не простым вхождением, а векторной близостью.
Видится так - получить на выходе иерархический 2 уровненный классификатор, 50 классов 1 уровня, по 15 подклассов. В каждом подклассе по 100 примеров употребления на разных языках.
Каким-то векторизатором прохожусь по токенам и ищу близкие в словаре.
Желательно на BERT, чтобы охватить много языков разом.