Size: a a a

Natural Language Processing

2019 October 30

AK

Alex Klimov in Natural Language Processing
По поводу адресов, мало их просто найти. Нужно их еще корректно нормализовать. У dadata для этого есть апишка, может пригодиться)) Чтобы самому в КЛАДР не лезть))
источник

PI

Petr Ivanov in Natural Language Processing
Андрей Заспа
Почему Natasha не распознает такие адреса: Свердловская обл., г. Екатеринбург, Барвинка 21и Нижегородская обл, Ардатовский р-н, Ардатов рп, Ленина ул, 14? И как можно это докрутить, чтобы работало распознавание и нормализация адреса?
В первом примере ей не нравится, что Барвинка это непонятно что.
источник

PI

Petr Ivanov in Natural Language Processing
во втором примере по умолчанию грамматика задана так, что рп ожидается до названия посёлка, но там не только это
источник

AK

Anton Kiselëv in Natural Language Processing
Petr Ivanov
В первом примере ей не нравится, что Барвинка это непонятно что.
какой тег навешивает PyMorphy2?
источник

PI

Petr Ivanov in Natural Language Processing
Anton Kiselëv
какой тег навешивает PyMorphy2?
не понял вопроса
источник

AK

Anton Kiselëv in Natural Language Processing
Petr Ivanov
не понял вопроса
немного неправильно написал; суть в том, что вместо полного словаря всех возможных улиц natasha применяет CRF-теггер, который помечает все слова, которые подозрительны на названия улиц (у PyMorphy тоже такая штука есть, но в целом для слов, например у нее есть тег Geox, по которому матчатся города), возможно что у на слово Барвинка этот тег не навешивается в CRF-теггере (вот тут указан какой конкретно тег) https://github.com/natasha/natasha/blob/master/natasha/grammars/address.py#L1282)
источник

PM

Pavel Makhnev in Natural Language Processing
Господа, а с помощью такой библиотеки можно координаты вида 55.345345, 34.353634 искать?
источник

AK

Anton Kazennikov in Natural Language Processing
Андрей Заспа
Почему Natasha не распознает такие адреса: Свердловская обл., г. Екатеринбург, Барвинка 21и Нижегородская обл, Ардатовский р-н, Ардатов рп, Ленина ул, 14? И как можно это докрутить, чтобы работало распознавание и нормализация адреса?
По-хорошему надо взять ФИАС и добавить в грамматику все нужные типы адресных элементов
источник

D

Dmitry in Natural Language Processing
Pavel Makhnev
Господа, а с помощью такой библиотеки можно координаты вида 55.345345, 34.353634 искать?
Наверное библиотека эта называется - регулярные выражения
источник

PI

Petr Ivanov in Natural Language Processing
Anton Kiselëv
немного неправильно написал; суть в том, что вместо полного словаря всех возможных улиц natasha применяет CRF-теггер, который помечает все слова, которые подозрительны на названия улиц (у PyMorphy тоже такая штука есть, но в целом для слов, например у нее есть тег Geox, по которому матчатся города), возможно что у на слово Барвинка этот тег не навешивается в CRF-теггере (вот тут указан какой конкретно тег) https://github.com/natasha/natasha/blob/master/natasha/grammars/address.py#L1282)
у Наташи особая логика. Она разрабатывалась под задачу, где есть куча текста и там нужно выделить адрес, причём этот адрес как правило юридического типа. Поэтому она плохо реагирует на отдельно стоящие слова и пропуски перед ними.
источник
2019 October 31

D

Dmitry in Natural Language Processing
У Наташи особая логика - женская)))
источник

АК

Анна Кириченко in Natural Language Processing
Dmitry
У Наташи особая логика - женская)))
По-моему шутки над женской логикой давно вышли из моды
источник

D

Dmitry in Natural Language Processing
Анна Кириченко
По-моему шутки над женской логикой давно вышли из моды
Наверное потому что у нас равенство!)))
источник

АК

Анна Кириченко in Natural Language Processing
Dmitry
Наверное потому что у нас равенство!)))
Возможно
источник

PI

Petr Ivanov in Natural Language Processing
я, если честно, не знаю, кто такая Наташа, но нейминг спорный. искать тяжело в интернете и словестные конструкции типа from natasha import  extractor доставляют
источник

D

Dmitry in Natural Language Processing
Petr Ivanov
я, если честно, не знаю, кто такая Наташа, но нейминг спорный. искать тяжело в интернете и словестные конструкции типа from natasha import  extractor доставляют
Я обычно делаю поиск по Гитхабу, некоторые проекты используют вот у них и подглядываю.
источник

IP

Igor Panteleev in Natural Language Processing
Всем привет! а есть тут люди, которые хорошо разбираются в Rasa? Есть несколько вопросов, которые из документации решительно трудно понять, похожих примеров тоже найти не удалиось
источник

AK

Alex Klimov in Natural Language Processing
Ну ты задавай, может быть они не останутся без ответа 😅
источник

V

Vlad in Natural Language Processing
Я с расой немного работаю, может смогу подсказать)
источник

IP

Igor Panteleev in Natural Language Processing
Их просто такое количество, что я бы лучше в личку написал, но можно начать с фундоментального😄

Какая область применения у этого фреймворка? у меня сложилось такое впечатление, что он хорош для FAQ-ботов (тут круто работает то, что раса умеет определять интенты и ентити с помощью мл) или для ботов в котором есть какой-то флоу, который пользователь обязательно доведет до конца, ну вроде примеров с бронированием столиков или поиском отелей по параметрам. то есть ты один раз зашел что-то сделал и забыл, до следующуего раза

У меня немножко другой кейс (попытаюсь в двух словах описать) - был самописный бот, который был написан по принципу стейт машины.
Стейт хранится в редисе и при каждом следующем запросе мы смотрим что за стейт был, и выбираем что делать дальше, или это продолжение прошлого флоу, или совершенно другой сценарий, тогда меняем состояние. В общем все работает детерменированно и в целом устраивало как работает.

Вопрос можно ли переписать эту стейт машину под расу (читал, что раса в такое плохо может). А именно, что по середине какой-то истории, я могу запросто переключиться на любую другую, и раса это корректно обработает, сбросит предыдущую накопленную историю. Пробовал сделать нечто подобное в эмуляторе, но не очень то вышло. Раса при отклонении от известного сценария, начинает сыпать дефолт_фоллбэками, а не выбирать другие ветки с их начала.

На вопрос зачем мне это, если и раньше все работало: хочется расширить список каналов "одной кнопкой", а не писать оболочку под каждый мессенджер. Да и в принципе раса понравилась за пару дней использования, но вот вкатиться в нее после детерменированного решения не получается
источник