Size: a a a

Natural Language Processing

2020 July 30

AK

Alexander Kukushkin in Natural Language Processing
Scatm J
Просто изначально беру все, что Наташа нашла с типом "PER" и уже оттуда пытаюсь извлечь фамилию и имя. К примеру, с именем "Анатолий Стахиев" - все хорошо, а вот с "Стахиев Анатолий" как-то не очень. Как вообще это пофиксить можно?
https://nbviewer.jupyter.org/github/natasha/natasha/blob/master/docs.ipynb#NamesExtractor пробовали?

> Как вообще это пофиксить можно
Посмотреть как сделано в Наташе, написать свои правила
источник

SJ

Scatm J in Natural Language Processing
Да, пробовал, names_extractor почему-то матчит Имя в Фамилию, а Фамилию, соответственно, в Имя.
Хорошо, большое спасибо за ответ
источник

IK

Ilya Kazakov in Natural Language Processing
Alexander Kukushkin
Продолжение серии постов про проект Natasha. Что за Наташа? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке
2. https://t.me/natural_language_processing/17369 Почему Natasha не использует Transformers. BERT в 100 строк.
3. https://natasha.github.io/navec/ Navec — компактные эмбединги для русского языка
4. https://t.me/natural_language_processing/18186 BERT-модели Slovnet
#natasha
А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2.
Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.
источник

AK

Alexander Kukushkin in Natural Language Processing
Ilya Kazakov
А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2.
Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.
угу, нужно обучать другую модель. Сейчас только для новостей
источник

AI

Andrew Ishutin in Natural Language Processing
Ilya Kazakov
А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2.
Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.
truecase?
источник

IK

Ilya Kazakov in Natural Language Processing
Ага
источник

IK

Ilya Kazakov in Natural Language Processing
Alexander Kukushkin
угу, нужно обучать другую модель. Сейчас только для новостей
Вообще, то, что сделано сейчас, работает очень классно по скорости (в моей практике). Этот ваш "дистиллят" в crf вдохновил. Спасибо!
Если вы эту идею пильнёте вообще инвариантно регистру, мне кажется, это будет очень сильный инструмент.
источник

AK

Anton Kolonin in Natural Language Processing
Если кому интересно - у нас тут случился относительный успех в применении грамматики Link Grammar для генерации грамматически правильных предложений по словам (по ходу научились загружать полноценный Link Grammar Dictinary в Java) https://github.com/aigents/aigents-java/issues/22 - следующая задача - поддержка русского, для чего нужно решить проблему с корректной загрузкой и обработкой морфологии. Если есть интересующиеся студены-дипломники или аспиранты или NLP-энтузиасты - пишите в личку.
источник

N

Nire in Natural Language Processing
Anton Kolonin
Если кому интересно - у нас тут случился относительный успех в применении грамматики Link Grammar для генерации грамматически правильных предложений по словам (по ходу научились загружать полноценный Link Grammar Dictinary в Java) https://github.com/aigents/aigents-java/issues/22 - следующая задача - поддержка русского, для чего нужно решить проблему с корректной загрузкой и обработкой морфологии. Если есть интересующиеся студены-дипломники или аспиранты или NLP-энтузиасты - пишите в личку.
круто
источник

C

Constantin in Natural Language Processing
Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.
источник

I

I Апрельский... in Natural Language Processing
Constantin
Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.
Я как-то гуглил в инете сервисы для школьников: корень там выделяют, окончание...
источник

I

I Апрельский... in Natural Language Processing
Подозреваю, что они целиком на словарях (Зализняка?)
источник

C

Constantin in Natural Language Processing
Я так понимаю, что ничего готового на Python нет? Самому брать словарь и писать? Подозреваю, что при наивном подходе долго искать будет нужный корень при запросе? Нужно будет делать что-то вроде Trie как в pymorphy2 ?
источник

I

I Апрельский... in Natural Language Processing
Да есть думаю где-то. Может не на питоне.
источник

OS

Oleg Serikov in Natural Language Processing
Constantin
Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.
как грязный хак сработает кверинг wikitionary)
источник
2020 July 31

КЧ

Константин Черных... in Natural Language Processing
День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших  текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?
источник

I

I Апрельский... in Natural Language Processing
Константин Черных
День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших  текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?
не совсем то, но зато прикольная классификация потенциальных проблем в контексте имен собственных: https://towardsdatascience.com/python-tutorial-fuzzy-name-matching-algorithms-7a6f43322cc5
источник

I

I Апрельский... in Natural Language Processing
источник

М

Марк in Natural Language Processing
Константин Черных
День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших  текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?
Как вариант:
Тренируем FastText в доменной области.
По косинусному расстоянию определяем категорию
источник

КЧ

Константин Черных... in Natural Language Processing
О! Спасибо огромное!
источник