AS
Подскажите, каким инструментом работать со следующей задачей:
1) Есть большая база марок и моделей транспорта (не только авто, но и водный, грузовой, аэро)
2) Есть множество очень плохо оформленных текстовых строк (natural language), где этот транспорт перечислен, при этом может быть много мусора, может быть транслит вместо английского названия, и другие ошибки, опечатки, года выпуска, …
3) Нужно в каждой строке находить эти модели, причем даже если их несколько
Сейчас работаем с nltk, но приходится все опечатки/транслит и прочие мерзости отрабатывать чуть ли не вручную, плюс получается огромный словарь, который со временем стал весить непозволительно много.
Может быть я упустил какой-то инструмент для поиска такого типа entity в тексте?
Есть какой-то готовый инструмент, который можно было бы обучить искать подобные записи с вариативностью написания?
Подскажите так же хороший туториал по построению метрики результативности в таких задачах.