Size: a a a

Natural Language Processing

2021 November 02

DD

David Dale in Natural Language Processing
Можно скачать список словоформ  с http://opencorpora.org/dict.php, положить их в https://pypi.org/project/pyahocorasick/, и пройтись скомпилированным ахокорасиком по вашему полотну текста. Думаю, получится довольно быстро.
источник

N

Natalia in Natural Language Processing
тогда может быть и проще, конечно
источник

N

Natalia in Natural Language Processing
но в вики, короче, не так уж и везде ударения, это раз

чем дальше в разные не сугубо русскоязычные регионы, тем больше веселья (и там вам даже языковая интуиция не поможет особо)
источник

N

Natalia in Natural Language Processing
ещё по ударениям советую поискать odict
источник

Eg

Elena gisly in Natural Language Processing
В OSM в теории есть такой тэг (https://wiki.openstreetmap.org/wiki/RU:Key:name:ru:word_stress), правда, вопрос, насколько много где он проставлен...
источник

AL

Alexey L in Natural Language Processing
Всем привет, подскажите пожалуйста, есть задача NER : находить в текстах именованные сущности. Что можно применить помимо регулярных выражений? Какие библиотеки (модели) можно задействовать? Тексты на русском языке.  Заранее прошу прощения, вопрос от новичка)
источник

AV

Artem Vishnya in Natural Language Processing
Если русский, то https://spacy.io/models/ru#ru_core_news_lg
источник

🐙

🐙 in Natural Language Processing
источник

AL

Alexey L in Natural Language Processing
Спасибо!
источник

🐙

🐙 in Natural Language Processing
https://github.com/natasha/natasha#ner
В Наташе тоже есть NER.
И в spacy, и в natasha есть возможность добавлять извлечение NER с помощью специальных правил, вдобавок к автоматическому.
источник

AL

Alexey L in Natural Language Processing
Я пробовал использовать Natasha, но вероятно не разобрался во всех возможностях этого проекта. К примеру: мне нужно найти ФИО в тексте. Но не все ФИО распознаются как ФИО ( pos = ‘PROPN’)
источник

🐙

🐙 in Natural Language Processing
https://habr.com/ru/post/516098/
Пробовали как в этих примерах, с функциональностью нормализации ФИО?
источник

AV

Artem Vishnya in Natural Language Processing
Из коробки ru_core_news_lg для spaCy умеет в ORG, PER и LOC.

Натравили на текст и сделали

for word in nertext.ents:
   print(word.text, word.label_)

Надо только ФИО - поставьте условие на PER и дело в шляпе
источник

AL

Alexey L in Natural Language Processing
Спасибо, сейчас попробую
источник

🐙

🐙 in Natural Language Processing
Прям сходу фильтруя по лейблу дело может оказаться шляпой. Если у вас конкретно ФИО, то добавьте сверху пару правил на основе Matcher
источник

AV

Artem Vishnya in Natural Language Processing
++
источник

AL

Alexey L in Natural Language Processing
Да, читал, действительно большой проект. И немного растерялся, что из предложенных инструментов применить.
источник

LL

Leonid Leonidovich in Natural Language Processing
А есть? Может договоримся?
источник

MM

Mikle Mikle in Natural Language Processing
Подскажите, пожалуйста, какие есть пакеты в Python для подсчета дескриптивных текстовых фич (кол-во слов, символов, средняя длина слова, % уникальных слов в тексте и тп)?
Мигрирую из R и еще не знаком со всеми библиотеками
источник

YB

Yuri Baburov in Natural Language Processing
1. Detection -- start with regexps
2. Normalization -- try dateparser .
источник