Телеграмм чат группы natural_language_processing страница 762

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1797 membersпожаловаться на группу

2020 July 30

AK

Alexander Kukushkin in Natural Language Processing

Просто изначально беру все, что Наташа нашла с типом "PER" и уже оттуда пытаюсь извлечь фамилию и имя. К примеру, с именем "Анатолий Стахиев" - все хорошо, а вот с "Стахиев Анатолий" как-то не очень. Как вообще это пофиксить можно?

https://nbviewer.jupyter.org/github/natasha/natasha/blob/master/docs.ipynb#NamesExtractor пробовали?

> Как вообще это пофиксить можно
Посмотреть как сделано в Наташе, написать свои правила

nbviewer.jupyter.org

Notebook on nbviewer

Check out this Jupyter notebook!

источник

10:59пожаловаться #1

SJ

Scatm J in Natural Language Processing

Да, пробовал, names_extractor почему-то матчит Имя в Фамилию, а Фамилию, соответственно, в Имя.
Хорошо, большое спасибо за ответ

источник

11:27пожаловаться #2

IK

Ilya Kazakov in Natural Language Processing

Alexander Kukushkin

Продолжение серии постов про проект Natasha. Что за Наташа? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке
2. https://t.me/natural_language_processing/17369 Почему Natasha не использует Transformers. BERT в 100 строк.
3. https://natasha.github.io/navec/ Navec — компактные эмбединги для русского языка
4. https://t.me/natural_language_processing/18186 BERT-модели Slovnet
#natasha

А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2.
Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.

источник

14:03пожаловаться #3

AK

Alexander Kukushkin in Natural Language Processing

А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2.
Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.

угу, нужно обучать другую модель. Сейчас только для новостей

источник

14:11пожаловаться #4

AI

Andrew Ishutin in Natural Language Processing

А slovnet оказался (естественно, берт же) case sensitive. ФИО и названия организаций с нижнего регистра не узнаёт. К STT не прикрутишь такое, к сожалению. Придётся и дальше страдать с pymorphy2.
Если дойдут руки, нужно будет форкнуть ваш успех для lowercased.

truecase?

источник

14:12пожаловаться #5

IK

Ilya Kazakov in Natural Language Processing

truecase?

Ага

источник

14:14пожаловаться #6

IK

Ilya Kazakov in Natural Language Processing

Alexander Kukushkin

угу, нужно обучать другую модель. Сейчас только для новостей

Вообще, то, что сделано сейчас, работает очень классно по скорости (в моей практике). Этот ваш "дистиллят" в crf вдохновил. Спасибо!
Если вы эту идею пильнёте вообще инвариантно регистру, мне кажется, это будет очень сильный инструмент.

источник

14:18пожаловаться #7

AK

Anton Kolonin in Natural Language Processing

Если кому интересно - у нас тут случился относительный успех в применении грамматики Link Grammar для генерации грамматически правильных предложений по словам (по ходу научились загружать полноценный Link Grammar Dictinary в Java) https://github.com/aigents/aigents-java/issues/22 - следующая задача - поддержка русского, для чего нужно решить проблему с корректной загрузкой и обработкой морфологии. Если есть интересующиеся студены-дипломники или аспиранты или NLP-энтузиасты - пишите в личку.

Natural language production based on formal grammar · Issue #22 · aigents/aigents-java

Overview: In the end, ideally, we want the natural language text to be produced in a quality higher than provided by modern conversational intelligence chatbots (such as https://replika.ai/ ) howev...

источник

14:51пожаловаться #8

N

Nire in Natural Language Processing

Если кому интересно - у нас тут случился относительный успех в применении грамматики Link Grammar для генерации грамматически правильных предложений по словам (по ходу научились загружать полноценный Link Grammar Dictinary в Java) https://github.com/aigents/aigents-java/issues/22 - следующая задача - поддержка русского, для чего нужно решить проблему с корректной загрузкой и обработкой морфологии. Если есть интересующиеся студены-дипломники или аспиранты или NLP-энтузиасты - пишите в личку.

Natural language production based on formal grammar · Issue #22 · aigents/aigents-java

Overview: In the end, ideally, we want the natural language text to be produced in a quality higher than provided by modern conversational intelligence chatbots (such as https://replika.ai/ ) howev...

круто

источник

15:05пожаловаться #9

C

Constantin in Natural Language Processing

Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.

источник

20:07пожаловаться #10

I

I Апрельский... in Natural Language Processing

Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.

Я как-то гуглил в инете сервисы для школьников: корень там выделяют, окончание...

источник

20:08пожаловаться #11

I

I Апрельский... in Natural Language Processing

Подозреваю, что они целиком на словарях (Зализняка?)

источник

20:09пожаловаться #12

C

Constantin in Natural Language Processing

Я так понимаю, что ничего готового на Python нет? Самому брать словарь и писать? Подозреваю, что при наивном подходе долго искать будет нужный корень при запросе? Нужно будет делать что-то вроде Trie как в pymorphy2 ?

источник

20:14пожаловаться #13

I

I Апрельский... in Natural Language Processing

Да есть думаю где-то. Может не на питоне.

источник

20:22пожаловаться #14

OS

Oleg Serikov in Natural Language Processing

Кто-нибудь знает инструмент для выделения морфологического корня слова русского языка? Внимание, стеммер (Портера, например) выделяет основу слова, а не морфологический корень.

как грязный хак сработает кверинг wikitionary)

источник

21:01пожаловаться #15

2020 July 31

КЧ

Константин Черных... in Natural Language Processing

День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?

источник

11:36пожаловаться #16

I

I Апрельский... in Natural Language Processing

Константин Черных

День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?

не совсем то, но зато прикольная классификация потенциальных проблем в контексте имен собственных: https://towardsdatascience.com/python-tutorial-fuzzy-name-matching-algorithms-7a6f43322cc5

Python Tutorial: Fuzzy Name Matching Algorithms

How to cope with the variability and complexity of person name variables used as identifiers.

источник

11:48пожаловаться #17

I

I Апрельский... in Natural Language Processing

https://pbpython.com/record-linking.html

Python Tools for Record Linking and Fuzzy Matching

This article discusses useful python tools for linking record sets and fuzzy matching on text fields. These concepts can also be used to deduplicate data.

источник

11:49пожаловаться #18

М

Марк in Natural Language Processing

Константин Черных

День добрый! Вопрос новичка. Мне нужно связать варианты запросов ну например "лопата Самсунг" с конкретными категориями товаров и их атрибутами (телефон Самсунг, широкий экран). Собственно вопрос - есть ли гайды для именно такого применения nlp (находил только для анализа больших текстов), и какой инструмент сможет этоттфункционал шустро крутить на сервере?

Как вариант:
Тренируем FastText в доменной области.
По косинусному расстоянию определяем категорию

источник

11:50пожаловаться #19

КЧ

Константин Черных... in Natural Language Processing

О! Спасибо огромное!

источник

11:50пожаловаться #20