Телеграмм чат группы natural_language

2020 June 29

DD

David Dale in Natural Language Processing

$○|

Интересно а Алису саму кто-нибудь парсил имитируя диалог

Это возможно, но больно - надо работу с мобильным приложением эмулировать.

источник

14:00пожаловаться #1

$

$○| in Natural Language Processing

Десктоп Алисы уже нет жаль

источник

14:02пожаловаться #2

$

$○| in Natural Language Processing

Раньше была одно время

источник

14:02пожаловаться #3

$

$○| in Natural Language Processing

Интересно старая .exe работает еще

источник

14:02пожаловаться #4

$

$○| in Natural Language Processing

https://sysadmin-note.ru/wp-content/uploads/yandex-alice.exe

источник

14:04пожаловаться #5

$

$○| in Natural Language Processing

Надо поставить попробовать может отсниффить

источник

14:04пожаловаться #6

VG

Vadim Gudkov in Natural Language Processing

Есть ли датасеты для выявления агрессии в речи на русском? Hate speech detection задача называется

источник

15:03пожаловаться #7

IS

I Sh in Natural Language Processing

Vadim Gudkov

Есть ли датасеты для выявления агрессии в речи на русском? Hate speech detection задача называется

Посмотрите, может этот подойдёт: https://www.kaggle.com/blackmoon/russian-language-toxic-comments

Kaggle

Russian Language Toxic Comments

Small dataset with labeled comments from 2ch.hk and pikabu.ru

источник

16:54пожаловаться #8

РН

Роман Некрасов... in Natural Language Processing

Vadim Gudkov

Есть ли датасеты для выявления агрессии в речи на русском? Hate speech detection задача называется

http://study.mokoron.com/

источник

17:01пожаловаться #9

VG

Vadim Gudkov in Natural Language Processing

Большое спасибо!

источник

19:02пожаловаться #10

EU

Egor Urvanov in Natural Language Processing

Всем привет. Подскажите, где заданы грамматики gram('Name'),, например, которые используются в yargy-parser?
https://github.com/natasha/yargy

FIRST = and_(
    gram('Name'),
    not_(gram('Abbr')),
)

GitHub

natasha/yargy

Rule-based facts extraction for Russian language. Contribute to natasha/yargy development by creating an account on GitHub.

источник

20:57пожаловаться #11

EU

Egor Urvanov in Natural Language Processing

Не понимаю, откуда их берёт yargy

источник

20:58пожаловаться #12

2020 June 30

AK

Alexander Kukushkin in Natural Language Processing

Egor Urvanov

Всем привет. Подскажите, где заданы грамматики gram('Name'),, например, которые используются в yargy-parser?
https://github.com/natasha/yargy

FIRST = and_(
    gram('Name'),
    not_(gram('Abbr')),
)

GitHub

natasha/yargy

Rule-based facts extraction for Russian language. Contribute to natasha/yargy development by creating an account on GitHub.

https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html
http://opencorpora.org/dict.php?act=gram #yargy

opencorpora.org

OpenCorpora: открытый корпус русского языка

источник

09:06пожаловаться #13

AK

Alexander Kukushkin in Natural Language Processing

Наверное, уже не все участники, знаю что этот чатик был создан несколько лет назад @dveselov, чтобы обсуждать Yargy-парсер и библиотеку Natasha. Здорово, что с тех пор здесь сама по себе завелась жизнь.

За последний год проект Natasha подрос. Я выложил в открытый доступ несколько наших внутренных наработок. Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Теперь Natasha — это целый большой проект https://github.com/natasha, состоит из 9 подпроектов. Библиотека Natasha https://github.com/natasha/natasha объединять их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: разделение на токены и предложения, эмбединги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

В этом году я планирую сделать несколько постов про технологии проекта. Предварительно буду выкладывать ссылки сюда. Задавайте вопросы, пишите замечания.

источник

09:12пожаловаться #14

AK

Alexander Kukushkin in Natural Language Processing

Первый пост про NER. Natasha решает стандартную задачу NER, извлекает из новостных статей имена, названия топонимов и организаций. Сейчас SOTA-результат для русского даёт Deeppavlov BERT NER, инструмент работает с разумной скоростью только на GPU, модель весит 2ГБ. Natasha отстаёт на 1 процентный пункт (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек).

Как получились такие результаты написано в технической статье https://natasha.github.io/ner/. Короткое содержание: берём тяжёлую модель-учитель Slovnet BERT NER (аналог Deeppavlov BERT NER), обучаем на небольшом вручную размеченном Collection5, генерим огромный синтетический датасет Nerus, дистилируем лёгкую модель-ученика Slovnet NER, квантуем таблицу эмбедингов (библиотека Navec), реализуем инференс на Numpy, чтобы работало на CPU. #natasha

natasha.github.io

Natasha — качественный компактный NER для русского языка

Извлечение имён, названий топонимов и организаций из новостных статей

источник

09:12пожаловаться #15

EU

Egor Urvanov in Natural Language Processing

Alexander Kukushkin

Первый пост про NER. Natasha решает стандартную задачу NER, извлекает из новостных статей имена, названия топонимов и организаций. Сейчас SOTA-результат для русского даёт Deeppavlov BERT NER, инструмент работает с разумной скоростью только на GPU, модель весит 2ГБ. Natasha отстаёт на 1 процентный пункт (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек).

Как получились такие результаты написано в технической статье https://natasha.github.io/ner/. Короткое содержание: берём тяжёлую модель-учитель Slovnet BERT NER (аналог Deeppavlov BERT NER), обучаем на небольшом вручную размеченном Collection5, генерим огромный синтетический датасет Nerus, дистилируем лёгкую модель-ученика Slovnet NER, квантуем таблицу эмбедингов (библиотека Navec), реализуем инференс на Numpy, чтобы работало на CPU. #natasha

natasha.github.io

Natasha — качественный компактный NER для русского языка

Извлечение имён, названий топонимов и организаций из новостных статей

Мне нужно извлекать телефоны. natasha этого делать не умеет. Я написал грамматики на yargy, которые уже неплохо работают. С вопросом выше разобрался.

Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё. Их там то ли 3, то ли 4 штуки (я имею ввиду 3 или 4 кейса: адреса, имена...)?

источник

09:27пожаловаться #16

RV

Roman V. in Natural Language Processing

Egor Urvanov

Мне нужно извлекать телефоны. natasha этого делать не умеет. Я написал грамматики на yargy, которые уже неплохо работают. С вопросом выше разобрался.

Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё. Их там то ли 3, то ли 4 штуки (я имею ввиду 3 или 4 кейса: адреса, имена...)?

а зачем для извлечения телефонов вообще что-то помимо регулярок? формат стандартизованный, варианты написания известны

источник

09:29пожаловаться #17

EU

Egor Urvanov in Natural Language Processing

Я с регулярками не очень дружу. А с yargy раньше работал и он мне понравился. Кроме того, yargy проще читать и потом изменять, если потребуется. Я не уверен, что регуляркой я напишу также эффективно

источник

09:30пожаловаться #18

EU

Egor Urvanov in Natural Language Processing

Пример телефона. Кажется, что преобразовать его в COUNTRY_CODE CITY_CODE PHONE EXT

источник

09:31пожаловаться #19

EU

Egor Urvanov in Natural Language Processing

Проще именно грамматикой, чем регуляркой.

источник

09:31пожаловаться #20