Добрый день!
Разбираюсь что к чему в области обработки текста. В качестве инструментов использую открытые библиотеки на python.
Появились вопросы, на которые пока не нашел ответа:
1. Существует ли ocr для распознавания текстов на русском языке с дореформенной орфографией? Для всего остального использую pytesseract.
2. Есть ли в открытом доступе словари географических названий на русском, чтобы их можно было использовать для проверки спеллинга токенов.
3. Существуют ли инструменты для нормализации названий географических объектов. Сейчас использую лемматизацию pymystem3, но, закономерно получаю не всегда то, что нужно.