Телеграмм чат группы natural_language_processing страница 776

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1835 membersпожаловаться на группу

2020 August 09

EB

Evgeniy Blinov in Natural Language Processing

Alexander Kukushkin

Продолжение серии постов про проект Natasha. Что за Наташа? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке
2. https://t.me/natural_language_processing/17369 Почему Natasha не использует Transformers. BERT в 100 строк.
3. https://natasha.github.io/navec/ Navec — компактные эмбединги для русского языка
4. https://t.me/natural_language_processing/18186 BERT-модели Slovnet
5. https://t.me/natural_language_processing/18450 Corus — коллекция русскоязычных NLP-датасетов
6. https://t.me/natural_language_processing/18673 Ламповый стрим про историю проекта Natasha
#natasha

Чем наташа лучше станзы?

источник

21:32пожаловаться #1

AK

Alexander Kukushkin in Natural Language Processing

Чем наташа лучше станзы?

Смотря для какой задачи. Количественное сравнение в https://github.com/natasha/naeval, наблюдения https://github.com/natasha/naeval/issues/1#issuecomment-647924514

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

источник

21:34пожаловаться #2

РН

Роман Некрасов... in Natural Language Processing

Чем наташа лучше станзы?

Станза - это синтаксический и морфологический парсер. В Наташе основная фишка NER-тегинг.

источник

21:47пожаловаться #3

AM

Alex Mak in Natural Language Processing

Alexander Kukushkin

Razdel — сегментация русскоязычного текста на токены и предложения
https://natasha.github.io/razdel

Современные модели часто пропускают этап сегментации, используют BPE-кодировку, показывают замечательные результаты, вспомним GPT и весь зоопарк BERTов. Но, например, задачи определения морфологии и синтаксиса имеют смысл только для отдельных слов внутри одного предложения.

На новостях, нормальное качество сегментации на предложения даёт регулярочка [.?!]\s+. Правда, она будет ошибаться на сокращениях и инициалах: "аудиторией от 3 тыс.| |человек", "В.А.| |Моцарта". Для русского существует несколько хороших решений, которые учитывают эти нюансы, например, ru_sentence_tokenizer от DeepPavlov https://github.com/deepmipt/ru_sentence_tokenizer.

Единственный недостаток готовых решений — их нельзя настроить. Например, есть текст судебного акта, нужно выделить в нём результативную часть и поделить её на параграфы. Естественно готовые решения так не умеют. Библиотека razdel https://github.com/natasha/razdel — на самом деле, это не просто готовое решение для разделения на токены и предложения, а небольшой сегментационный движок на правилах. Как упороться и сделать на нём топовое решение стандартной задачи сегментации читайте в http://natasha.github.io/razdel. Как писать свои правила читайте в исходниках https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py =)

natasha.github.io

Razdel — сегментация русскоязычного текста на токены и предложения

Python-библиотека, часть проекта Natasha, система построена на правилах, высокое качество и скорость работы

Интересно, а есть аналогичные решения, но для английского языка?

источник

23:19пожаловаться #4

I

I Апрельский... in Natural Language Processing

Роман Некрасов

Станза - это синтаксический и морфологический парсер. В Наташе основная фишка NER-тегинг.

но вот теперь-то Наташа — это комбайн как Станза. т.е. имя осталось, но за ним теперь другое наполнение.

источник

23:21пожаловаться #5

N

Natalia in Natural Language Processing

Alex Mak

Интересно, а есть аналогичные решения, но для английского языка?

не в курсе детально, но имеет смысл вообще посмотреть, что в итоге вышло в https://github.com/huggingface/tokenizers

huggingface/tokenizers

💥Fast State-of-the-Art Tokenizers optimized for Research and Production - huggingface/tokenizers

источник

23:31пожаловаться #6

2020 August 10

E

Elena in Natural Language Processing

Это tokenizers для Бертоподобных моделей

источник

02:58пожаловаться #7

E

Elena in Natural Language Processing

Для английского nltk можно разбивать на токены и предложения

источник

03:03пожаловаться #8

D

Dmitry in Natural Language Processing

Подскажите чем можно определять корень в русских словах? (не стемминг, а именно корень). Есть ли такие решения?

источник

11:04пожаловаться #9

I

I Апрельский... in Natural Language Processing

Неделю назад я спрашивал про наличие библиотеки для выделения морфологических корней для русских слов. Её не оказалось. Я написал её сам - морфологический токенизатор. Если кому нужно будет, то его можно найти тут https://github.com/constantin50/morphological_tokenizer

constantin50/morphological_tokenizer

Morphological Parser for Russian is able to split words into morphemes: prefixes, roots, infixes and postfixes - constantin50/morphological_tokenizer

такое? :)

источник

11:11пожаловаться #10

D

Dmitry in Natural Language Processing

I Апрельский

такое? :)

о, точно)

источник

11:13пожаловаться #11

D

Dmitry in Natural Language Processing

спасибо

источник

11:13пожаловаться #12

I

I Апрельский... in Natural Language Processing

спасибо

Это Константину спасибо!

источник

11:14пожаловаться #13

I

I Апрельский... in Natural Language Processing

А что у вас за интерес такой? Какой-то конкурс идет? Просто аж 2 запроса для такой эзотерической темы за неделю — удивительно!

источник

11:14пожаловаться #14

AP

Alex Peresmeshnik in Natural Language Processing

I Апрельский

А что у вас за интерес такой? Какой-то конкурс идет? Просто аж 2 запроса для такой эзотерической темы за неделю — удивительно!

Мы недавно поднимали тему русского мата. Некоторые ученые предлагают классифицировать мат по исходному уорню слова

источник

11:21пожаловаться #15

C

Constantin in Natural Language Processing

I Апрельский

А что у вас за интерес такой? Какой-то конкурс идет? Просто аж 2 запроса для такой эзотерической темы за неделю — удивительно!

мне нужно было для конвертации отглагольного существительного в глагол (use case в readme на git)

источник

11:31пожаловаться #16

KS

Konstantin Smith in Natural Language Processing

мне нужно было для конвертации отглагольного существительного в глагол (use case в readme на git)

Кстати, в Pullenti есть так называемые дериватные группы: объединение однокоренных слов разных частей речи. Например, "ПРОИЗВОДСТВО ПРОИЗВОДИТЕЛЬ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВЕДЕННЫЙ...". Объединяет существительные, прилагательные, наречия, глаголы несовершенный и совершенные, причастия. Словарь содержит около 15000 групп. Использовать так: в классе Explanatory есть статическая функция List<DerivateGroup> FindDerivates(string word, bool tryVariants = true). Вернёт null, одну или несколько вариантов групп для слова (word - в верхнем регистре и нормальной форме). В рамках группы DerivateGroup можно перебрать список List<DerivateWord> Words и по атрибутам найти подходящий. Второй аргумент - если слово не найдено, то поищет по аналогии и сгенерирует соотв. группу.

источник

16:20пожаловаться #17

ck

cnstntn kndrtv in Natural Language Processing

Konstantin Smith

Кстати, в Pullenti есть так называемые дериватные группы: объединение однокоренных слов разных частей речи. Например, "ПРОИЗВОДСТВО ПРОИЗВОДИТЕЛЬ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВЕДЕННЫЙ...". Объединяет существительные, прилагательные, наречия, глаголы несовершенный и совершенные, причастия. Словарь содержит около 15000 групп. Использовать так: в классе Explanatory есть статическая функция List<DerivateGroup> FindDerivates(string word, bool tryVariants = true). Вернёт null, одну или несколько вариантов групп для слова (word - в верхнем регистре и нормальной форме). В рамках группы DerivateGroup можно перебрать список List<DerivateWord> Words и по атрибутам найти подходящий. Второй аргумент - если слово не найдено, то поищет по аналогии и сгенерирует соотв. группу.

буду третьим Константином в ветке) В Pulenti это сделано на основе словаря? Можно как это в текстовый словарь выгрузить?
Использовал когда-то в Solr расширение запросов синонимами, из словаря Хагена. Результат устроил, не плохо бы его еще дополнить вашими данными.

источник

16:26пожаловаться #18

KS

Konstantin Smith in Natural Language Processing

Увы, не только я его делал, и в текстовом виде выложить пока не могу.

источник

16:27пожаловаться #19

ck

cnstntn kndrtv in Natural Language Processing

Konstantin Smith

Увы, не только я его делал, и в текстовом виде выложить пока не могу.

Но лицензия позволит дергать АПИ и записывать результат?)

источник

16:28пожаловаться #20