Size: a a a

Natural Language Processing

2020 May 06

MM

Mikhail Mashkovich in Natural Language Processing
tesseract можно обучить на свой язык, начать можно наверное отсюда https://habr.com/ru/post/466571/
источник

KZ

Kastus Zhu in Natural Language Processing
Cyril
Добрый день!

Разбираюсь что к чему в области обработки текста. В качестве инструментов использую открытые библиотеки на python.

Появились вопросы, на которые пока не нашел ответа:

1. Существует ли ocr для распознавания текстов на русском языке с дореформенной орфографией? Для всего остального использую pytesseract.

2. Есть ли в открытом доступе словари географических названий на русском, чтобы их можно было использовать для проверки спеллинга токенов.

3. Существуют ли инструменты для нормализации названий географических объектов. Сейчас использую лемматизацию pymystem3, но, закономерно получаю не всегда то, что нужно.
По второму пункту, если не найдётся такой словарь, то можно попробовать из OSM достать.
источник

C

Cyril in Natural Language Processing
Kastus Zhu
По второму пункту, если не найдётся такой словарь, то можно попробовать из OSM достать.
как раз через геокодер osm  пропускаю, но поскольку названия нормализуются через pymystem3 найти получается далеко не всё
источник

NS

Nikolay Shmyrev in Natural Language Processing
Дмитрий Тырин
Как возможно решить задачу по исправлению слов в тексте, у которых стоит буква "е", а не "ё"? Т.е. исправить хотя бы самые очевидные слова "шёл", "неё" и тп
Ручной поиск и замену не предлагать)
есть кстати несколько хороших проектов вроде

https://github.com/e2yo/eyo-kernel (этот ничего)
https://github.com/kalashnikovisme/karamzin
https://github.com/link2xt/yoficator

по-хорошему надо нейросетку тренировать.
источник

Bo

Blen obema in Natural Language Processing
Привет всем!
Кто-то использовал SpeechRecognition библиотеку, а именно вместе с PocketSphinx (recognize_sphinx) ?
Или кто ещё что может посоветовать для audio transcription? Ищу оффлайн решение
источник

YB

Yuri Baburov in Natural Language Processing
Blen obema
Привет всем!
Кто-то использовал SpeechRecognition библиотеку, а именно вместе с PocketSphinx (recognize_sphinx) ?
Или кто ещё что может посоветовать для audio transcription? Ищу оффлайн решение
а оффлайн для компьютера, для телефона, для тапка?
источник

Bo

Blen obema in Natural Language Processing
Yuri Baburov
а оффлайн для компьютера, для телефона, для тапка?
компьютер
какое-то простое решение для интеграции с Python
источник

YB

Yuri Baburov in Natural Language Processing
Blen obema
компьютер
какое-то простое решение для интеграции с Python
а на качество совсем пофиг, раз pocketsphinx рассматриваешь?
источник

Bo

Blen obema in Natural Language Processing
Yuri Baburov
а на качество совсем пофиг, раз pocketsphinx рассматриваешь?
Да, точность не так важна
Важно из 10-20 минутного аудиофайла с разговором получить такой транскрипт, чтобы было понятно в целом о чём речь
источник

YB

Yuri Baburov in Natural Language Processing
кроме pocketsphinx из оффлайновых бесплатных есть ещё калди-ру и к нему vosk для интеграции.
источник

Bo

Blen obema in Natural Language Processing
Yuri Baburov
кроме pocketsphinx из оффлайновых бесплатных есть ещё калди-ру и к нему vosk для интеграции.
благодарю!
источник

YB

Yuri Baburov in Natural Language Processing
Blen obema
благодарю!
он медленнее, но качественнее
источник

Bo

Blen obema in Natural Language Processing
Главное, чтобы работал)
А то поставить pocketsphinx на MacOS никак не удаётся...
источник

AZ

Alina Zhiltsova in Natural Language Processing
всем привет! очень классными материалами тут делитесь, спасибо большое)
не нашла, есть ли правила для вопросов, поэтому задам как есть - поправьте если что)

на работе начали экспериментировать с multilingual translation,  и хотим применить несколько метрик. дата у нас своя, короткие фразы из 2-3 слов, и потом машинные переводы на 40+ языков. все в одном экземпляре - то есть на 1 оригинальную фразу на англ будет только одна фраза на каждом языке, которую и хотим оценить. я немного запуталась, и вопрос такой - есть ли смысл пробовать BLEU? я посмотрела много туториалов и все еще не знаю - можно ли эту метрику использовать, если нет reference translations?
источник
2020 May 07

VM

Valentin Malykh in Natural Language Processing
судя по вашим словам, у вас нет референсов, чтобы получить какую-то оценку качества вы можете использовать движки конкурентов, и сравниваться с их выходом
источник

ЯЗ

Я — пехотинец Владим... in Natural Language Processing
Ребята, направили к вам, можете помочь, пожалуйста?
У меня есть текст, в нём нужно найти предложения с complex object и complex ни subject. Я смогла найти только одно предложение. Не пойму, то ли я слепая, то ли тут таких больше нет.
https://phys.org/news/2020-05-satellites-covid-.html
источник

DK

Denis Kirjanov in Natural Language Processing
Я — пехотинец Владимира Владимировича Путина Законноизбранного президента Российской Федерации.
Ребята, направили к вам, можете помочь, пожалуйста?
У меня есть текст, в нём нужно найти предложения с complex object и complex ни subject. Я смогла найти только одно предложение. Не пойму, то ли я слепая, то ли тут таких больше нет.
https://phys.org/news/2020-05-satellites-covid-.html
пехотинец, который пришел с миром?
источник

ЯЗ

Я — пехотинец Владим... in Natural Language Processing
Denis Kirjanov
пехотинец, который пришел с миром?
Ага
источник

DK

Denis Kirjanov in Natural Language Processing
идите с миром дальше )
источник

OL

Oleg Lungu in Natural Language Processing
источник