Телеграмм чат группы natural_language_processing страница 1502

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 02

DD

David Dale in Natural Language Processing

Можно скачать список словоформ с http://opencorpora.org/dict.php, положить их в https://pypi.org/project/pyahocorasick/, и пройтись скомпилированным ахокорасиком по вашему полотну текста. Думаю, получится довольно быстро.

источник

16:53пожаловаться #1

N

Natalia in Natural Language Processing

тогда может быть и проще, конечно

источник

16:54пожаловаться #2

N

Natalia in Natural Language Processing

но в вики, короче, не так уж и везде ударения, это раз

чем дальше в разные не сугубо русскоязычные регионы, тем больше веселья (и там вам даже языковая интуиция не поможет особо)

источник

16:56пожаловаться #3

N

Natalia in Natural Language Processing

ещё по ударениям советую поискать odict

источник

16:56пожаловаться #4

Eg

Elena gisly in Natural Language Processing

В OSM в теории есть такой тэг (https://wiki.openstreetmap.org/wiki/RU:Key:name:ru:word_stress), правда, вопрос, насколько много где он проставлен...

источник

16:57пожаловаться #5

AL

Alexey L in Natural Language Processing

Всем привет, подскажите пожалуйста, есть задача NER : находить в текстах именованные сущности. Что можно применить помимо регулярных выражений? Какие библиотеки (модели) можно задействовать? Тексты на русском языке. Заранее прошу прощения, вопрос от новичка)

источник

16:58пожаловаться #6

AV

Artem Vishnya in Natural Language Processing

Если русский, то https://spacy.io/models/ru#ru_core_news_lg

Russian · spaCy Models Documentation

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

источник

17:02пожаловаться #7

🐙

🐙 in Natural Language Processing

Поддерживаю
https://spacy.io/usage/linguistic-features#named-entities

Linguistic Features

Linguistic Features · spaCy Usage Documentation

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

источник

17:02пожаловаться #8

AL

Alexey L in Natural Language Processing

Спасибо!

источник

17:04пожаловаться #9

🐙

🐙 in Natural Language Processing

https://github.com/natasha/natasha#ner
В Наташе тоже есть NER.
И в spacy, и в natasha есть возможность добавлять извлечение NER с помощью специальных правил, вдобавок к автоматическому.

GitHub - natasha/natasha: Solves basic Russian NLP tasks, API for lower level Natasha projects

Solves basic Russian NLP tasks, API for lower level Natasha projects - GitHub - natasha/natasha: Solves basic Russian NLP tasks, API for lower level Natasha projects

источник

17:06пожаловаться #10

AL

Alexey L in Natural Language Processing

Я пробовал использовать Natasha, но вероятно не разобрался во всех возможностях этого проекта. К примеру: мне нужно найти ФИО в тексте. Но не все ФИО распознаются как ФИО ( pos = ‘PROPN’)

источник

17:23пожаловаться #11

🐙

🐙 in Natural Language Processing

https://habr.com/ru/post/516098/
Пробовали как в этих примерах, с функциональностью нормализации ФИО?

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил...

источник

17:24пожаловаться #12

AV

Artem Vishnya in Natural Language Processing

Из коробки ru_core_news_lg для spaCy умеет в ORG, PER и LOC.

Натравили на текст и сделали

for word in nertext.ents:
    print(word.text, word.label_)

Надо только ФИО - поставьте условие на PER и дело в шляпе

источник

17:25пожаловаться #13

AL

Alexey L in Natural Language Processing

Спасибо, сейчас попробую

источник

17:27пожаловаться #14

🐙

🐙 in Natural Language Processing

Прям сходу фильтруя по лейблу дело может оказаться шляпой. Если у вас конкретно ФИО, то добавьте сверху пару правил на основе Matcher

источник

17:32пожаловаться #15

AV

Artem Vishnya in Natural Language Processing

++

источник

17:36пожаловаться #16

AL

Alexey L in Natural Language Processing

Да, читал, действительно большой проект. И немного растерялся, что из предложенных инструментов применить.

источник

17:40пожаловаться #17

LL

Leonid Leonidovich in Natural Language Processing

А есть? Может договоримся?

источник

17:45пожаловаться #18

MM

Mikle Mikle in Natural Language Processing

Подскажите, пожалуйста, какие есть пакеты в Python для подсчета дескриптивных текстовых фич (кол-во слов, символов, средняя длина слова, % уникальных слов в тексте и тп)?
Мигрирую из R и еще не знаком со всеми библиотеками

источник

17:47пожаловаться #19

YB

Yuri Baburov in Natural Language Processing

1. Detection -- start with regexps
2. Normalization -- try dateparser .

источник

18:09пожаловаться #20