Size: a a a

Natural Language Processing

2020 June 29

DD

David Dale in Natural Language Processing
$○|
Интересно а Алису саму кто-нибудь парсил имитируя диалог
Это возможно, но больно - надо работу с мобильным приложением эмулировать.
источник

$

$○| in Natural Language Processing
Десктоп Алисы уже нет жаль
источник

$

$○| in Natural Language Processing
Раньше была одно время
источник

$

$○| in Natural Language Processing
Интересно старая .exe работает еще
источник

$

$○| in Natural Language Processing
источник

$

$○| in Natural Language Processing
Надо поставить попробовать может отсниффить
источник

VG

Vadim Gudkov in Natural Language Processing
Есть ли датасеты для выявления агрессии в речи на русском? Hate speech detection задача называется
источник

IS

I Sh in Natural Language Processing
Vadim Gudkov
Есть ли датасеты для выявления агрессии в речи на русском? Hate speech detection задача называется
Посмотрите, может этот подойдёт: https://www.kaggle.com/blackmoon/russian-language-toxic-comments
источник

РН

Роман Некрасов... in Natural Language Processing
Vadim Gudkov
Есть ли датасеты для выявления агрессии в речи на русском? Hate speech detection задача называется
источник

VG

Vadim Gudkov in Natural Language Processing
Большое спасибо!
источник

EU

Egor Urvanov in Natural Language Processing
Всем привет. Подскажите, где заданы грамматики     gram('Name'),, например, которые используются в yargy-parser?
https://github.com/natasha/yargy

FIRST = and_(
   gram('Name'),
   not_(gram('Abbr')),
)
источник

EU

Egor Urvanov in Natural Language Processing
Не понимаю, откуда их берёт yargy
источник
2020 June 30

AK

Alexander Kukushkin in Natural Language Processing
Egor Urvanov
Всем привет. Подскажите, где заданы грамматики     gram('Name'),, например, которые используются в yargy-parser?
https://github.com/natasha/yargy

FIRST = and_(
   gram('Name'),
   not_(gram('Abbr')),
)
источник

AK

Alexander Kukushkin in Natural Language Processing
Наверное, уже не все участники, знаю что этот чатик был создан несколько лет назад @dveselov, чтобы обсуждать Yargy-парсер и библиотеку Natasha. Здорово, что с тех пор здесь сама по себе завелась жизнь.

За последний год проект Natasha подрос. Я выложил в открытый доступ несколько наших внутренных наработок. Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Теперь Natasha — это целый большой проект https://github.com/natasha, состоит из 9 подпроектов. Библиотека Natasha https://github.com/natasha/natasha объединять их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: разделение на токены и предложения, эмбединги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

В этом году я планирую сделать несколько постов про технологии проекта. Предварительно буду выкладывать ссылки сюда. Задавайте вопросы, пишите замечания.
источник

AK

Alexander Kukushkin in Natural Language Processing
Первый пост про NER. Natasha решает стандартную задачу NER, извлекает из новостных статей имена, названия топонимов и организаций. Сейчас SOTA-результат для русского даёт Deeppavlov BERT NER, инструмент работает с разумной скоростью только на GPU, модель весит 2ГБ. Natasha отстаёт на 1 процентный пункт (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек).

Как получились такие результаты написано в технической статье https://natasha.github.io/ner/. Короткое содержание: берём тяжёлую модель-учитель Slovnet BERT NER (аналог Deeppavlov BERT NER), обучаем на небольшом вручную размеченном Collection5, генерим огромный синтетический датасет Nerus, дистилируем лёгкую модель-ученика Slovnet NER, квантуем таблицу эмбедингов (библиотека Navec), реализуем инференс на Numpy, чтобы работало на CPU. #natasha
источник

EU

Egor Urvanov in Natural Language Processing
Alexander Kukushkin
Первый пост про NER. Natasha решает стандартную задачу NER, извлекает из новостных статей имена, названия топонимов и организаций. Сейчас SOTA-результат для русского даёт Deeppavlov BERT NER, инструмент работает с разумной скоростью только на GPU, модель весит 2ГБ. Natasha отстаёт на 1 процентный пункт (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек).

Как получились такие результаты написано в технической статье https://natasha.github.io/ner/. Короткое содержание: берём тяжёлую модель-учитель Slovnet BERT NER (аналог Deeppavlov BERT NER), обучаем на небольшом вручную размеченном Collection5, генерим огромный синтетический датасет Nerus, дистилируем лёгкую модель-ученика Slovnet NER, квантуем таблицу эмбедингов (библиотека Navec), реализуем инференс на Numpy, чтобы работало на CPU. #natasha
Мне нужно извлекать телефоны. natasha этого делать не умеет. Я написал грамматики на yargy, которые уже неплохо работают. С вопросом выше разобрался.

Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё. Их там то ли 3, то ли 4 штуки (я имею ввиду 3 или 4 кейса: адреса, имена...)?
источник

RV

Roman V. in Natural Language Processing
Egor Urvanov
Мне нужно извлекать телефоны. natasha этого делать не умеет. Я написал грамматики на yargy, которые уже неплохо работают. С вопросом выше разобрался.

Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё. Их там то ли 3, то ли 4 штуки (я имею ввиду 3 или 4 кейса: адреса, имена...)?
а зачем для извлечения телефонов вообще что-то помимо регулярок? формат стандартизованный, варианты написания известны
источник

EU

Egor Urvanov in Natural Language Processing
Я с регулярками не очень дружу. А с yargy раньше работал и он мне понравился. Кроме того, yargy проще читать и потом изменять, если потребуется. Я не уверен, что регуляркой я напишу также эффективно
источник

EU

Egor Urvanov in Natural Language Processing
Пример телефона. Кажется, что преобразовать его в COUNTRY_CODE CITY_CODE PHONE EXT
источник

EU

Egor Urvanov in Natural Language Processing
Проще именно грамматикой, чем регуляркой.
источник