Телеграмм чат группы natural_language

В yargy готовится крупное обновление. Интерфейс natasha не поменяется, а вот API yargy немного изменится. Если кто-то использует yargy напрямую просьба почитать https://github.com/natasha/yargy/pull/48 . Изменения случатся через 1-2 месяца

GitHub

Refactor tokenizer, inline pipelines, lazy predicates, refactor interpretation, rule relations by alexanderkuk · Pull Request #48 · natasha/yargy

Большой апдейт. По результатам использования yargy в нескольких крупных проектах выявлены проблемы, сформулированы и реализованы решения. Компоненты, которых коснулись изменения: токенизатор, пайпл...

Когда обновление будет?

источник

07:44пожаловаться #5

Alexander Kukushkin in Natural Language Processing

в середине марта

источник

14:53пожаловаться #6

2018 February 22

Daria Maglevanaya in Natural Language Processing

Добрый вечер! Подскажите, как цитировать использование Наташи?

источник

21:51пожаловаться #7

Dima Veselov in Natural Language Processing

Привет, можно просто оставить ссылку на Github :)

источник

23:19пожаловаться #8

Daria Maglevanaya in Natural Language Processing

Хорошо, очень вовремя!

источник

23:26пожаловаться #9

2018 February 24

Dmitry in Natural Language Processing

Здравствуйте, могли бы вы мне немного помочь?
Надо поговорить с виртуальным продавцом одежды :)
Она умеет отвечать на вопросы об одежде и немного других вопросов. http://servoassistant.me/olivia/ask

источник

19:20пожаловаться #10

Alexander Pozharskiy in Natural Language Processing

Dmitry

Не по NLP-му делу, но первое же - уверен ли ты, что анимированная так кнопка сабмита - это хорошо? И текст - "Здравствуй, сейчас запишу вам видео". Тогда уже "Здравствуйте", наверное.

источник

19:23пожаловаться #11

Dmitry in Natural Language Processing

Alexander Pozharskiy

Спасибо за кнопку)
С Здравствуй согласен, но это ответ из реального датасета, так отвечал продавец в одной соцсети своим покупателям:)

источник

19:24пожаловаться #12

Dmitry in Natural Language Processing

Судя по манере общения это было что-то типа "между нами девочками", поэтому в таком стиле.

источник

19:25пожаловаться #13

2018 March 02

Nick Turusin in Natural Language Processing

Ребята, а в новом релизе yargy не будет добавлено ограничений на repeatable?

источник

15:27пожаловаться #14

2018 March 03

Nikita in Natural Language Processing

Dima Veselov

Привет, можно просто оставить ссылку на Github :)

Напиши мне в приват пожалуйста

источник

23:11пожаловаться #15

2018 March 13

Alexander Kukushkin in Natural Language Processing

Вышла новая версия yargy 0.10.0. Как я писал пару месяцев назад, АПИ в некоторых местах изменилось. Список изменений https://github.com/natasha/yargy/pull/48 . Обновлённая дока http://yargy.readthedocs.io/ru/latest/

Вышла новая версия natasha 0.9.0. АПИ не изменилось. Немного поменялись правила в экстракторах. Дока http://natasha.readthedocs.io/ru/latest/

источник

22:13пожаловаться #16

Alexander Kukushkin in Natural Language Processing

Есть желание в ближайшие дни опубликовать на Хабре статью про Наташу. Черновик в приложении. Просьба посмотреть, может быть, какие-то места непонятны

источник

22:14пожаловаться #17

Alexander Kukushkin in Natural Language Processing

natasha-habr.pdf

(3.24 Мб)

источник

22:15пожаловаться #18

Alexander Kukushkin in Natural Language Processing

Nick Turusin

Ребята, а в новом релизе yargy не будет добавлено ограничений на repeatable?

Нет, такой функции нет. Я не очень представляю как это поддержать в парсере

источник

22:15пожаловаться #19

Nikita Tolstoy in Natural Language Processing

Alexander Kukushkin

@alexkuk Александр, добрый день!

Спасибо за препринт, очень интересно прочесть! Хотел бы задать несколько вопросов; я совсем недавно в теме анализа текстов, поэтому вопросы могут быть немного noobie, заранее прошу прощения. Это ни в коем случае не критика работы! Был бы очень признатален вам за ответы - мне по-настоящему хочется разобраться в этой технологии.

1. "Из открытого мне известен только Томито-парсер и свежий Deepmipt NER..." - вы видели https://github.com/zamgi/lingvo--Ner-ru? Или это не то, и я путаю?

2. "В статье показано, как использовать готовые правила..." - расскажите, пожалуйста, по вашему опыту, что с этой библиотекой НЕ стоит делать, для чего она НЕ подходит? Чтобы как-то очертить границы применимости.

3. "Пользователю недоступны никакие настройки" (про интерфейс) - вы хотите сказать, что надо форкать репозиторий и патчи-патчи-патчи, а "из коробки" настроек нет (в смысле нет передачи параметров в функции)? Кстати, Наташа "тащит" Yargy?

4. "Часто приходится опускаться на уровень ниже, дополнять готовые правила" - то есть дописывать именно Yargy, мимо Наташи? А там какая лицензия? В чём смысл Наташи помимо того, что она - удобная обёртки для Yargy? Из каких компонент она состоит и как устроено её взаимодействие с Yargy? Если этого нет в документации (я пока не смотрел) - туториал из э маст.

5. (по картинкам) Что такое R0, R1...? Это сокращение от "Relative"? Не понимаю :(

6. "Если нужно извлечь из текста, например, только даты, стоит выбрать готовую специализированную библиотеку." - то есть теоретически 10 "узко заточенных" решений аутперформят Наташу? Тогда почему не рекламировать бандл из 10, если performance is an issue? Может быть, каких-то "узко заточенных" просто нет для русского... Просветите, плиз. И, кстати! какой шаг пайплайна анализа (грамматики->интерпретация->согласование) самый длинный относительно всего?

7. "Yargy нужен для объемных нестандартных задач". Учитывая, что есть консерны по перформансу, интересно было бы прочесть, какую производительность (в знаках на секунду) из неё можно выжать с обычного свежего Макбука Про. Понимаю, что "горизонтально масштабируется", но зарплата так не масштабируется :) Поделитесь, пожалуйста (если не секрет), какой стек технологий вы используете для распараллеливания?

8. "Мы надеемся, что сообщество поможет улучшить точность и полноту правил" - как конкретно вам можно помочь и что для этого сделать? :)

Параллельно у меня составился список стилистических правок, но, наверное, я и так вас загрузил, плюс они могут быть неуместны, поэтому оставлю при себе.

Спасибо вам за терпиливое чтение. :)

С уважением,
Никита

P.S. Букву "а" в первом параграфе части "Интерпретация" в слове парсер нужно приписать.

GitHub

zamgi/lingvo--Ner-ru

Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке - zamgi/lingvo--Ner-ru

источник

23:34пожаловаться #20