Телеграмм чат группы natural_language_processing страница 712

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1702 membersпожаловаться на группу

2020 July 06

AI

Andrew Ishutin in Natural Language Processing

TL;DR: обучили разные модели на: lowercase; uppercase; uppercase+lowercase; uppercase + truecased lowercase. Потестили каждую модель на lowercase и uppercase выборках. Сказали, какой метод обучения NER и POS модели лучше для чего.

источник

15:27пожаловаться #1

DK

Denis Kirjanov in Natural Language Processing

такую же табличку посчитали для него.

cased uncased? или что?

источник

15:29пожаловаться #2

YB

Yuri Baburov in Natural Language Processing

Плюс, то, что я предложил не нужно дообучать. Нужен только truecaser для русского и готовая модель

да, это большой плюс, кстати.

источник

15:29пожаловаться #3

AI

Andrew Ishutin in Natural Language Processing

cased uncased? или что?

тестировали на cased/uncased . Обучали на разных комбинациях

источник

15:30пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

cased uncased? или что?

ну, вопрос в том, что, когда надо пользователям посчитать готовые модели для dependency parsing, то что нам делать с текстом из тех же социальных сетей, который может быть иногда написан в нижнем регистре (или в непонятном регистре).

источник

15:31пожаловаться #5

AI

Andrew Ishutin in Natural Language Processing

или после asr системы

источник

15:32пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

или после asr, да.

источник

15:32пожаловаться #7

DK

Denis Kirjanov in Natural Language Processing

ну, вопрос в том, что, когда надо пользователям посчитать готовые модели для dependency parsing, то что нам делать с текстом из тех же социальных сетей, который может быть иногда написан в нижнем регистре (или в непонятном регистре).

свой dependency parsing учить, имхо. Там главное -- с пунктуацией трэш

источник

15:33пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

свой dependency parsing учить, имхо. Там главное -- с пунктуацией трэш

а там отдельного датасета нет обычно все равно.

источник

15:35пожаловаться #9

DK

Denis Kirjanov in Natural Language Processing

а там отдельного датасета нет обычно все равно.

ну да -- собирать

источник

15:36пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

ну да -- собирать

ну вот. а авторы предложили 4 разных способа использовать готовый датасет и померили их.

источник

15:37пожаловаться #11

D

Dmitriy in Natural Language Processing

@alexkuk Не попадалось ли вам среди применений yargy полномасштабная задача извлечения дат и времени из текста в произвольном формате? Я пробую реализовать это и сталкиваюсь с рядом трудностей. Одна из них, например, - необходимость последовательного извлечения сущностей из текста таким образом, чтобы последующие извлечения не пересекались с предыдщими, а затем склейка извлеченных сущностей на основании правил. Есть ли в yargy такой функционал?

источник

15:50пожаловаться #12

AK

Alexander Kukushkin in Natural Language Processing

@alexkuk Не попадалось ли вам среди применений yargy полномасштабная задача извлечения дат и времени из текста в произвольном формате? Я пробую реализовать это и сталкиваюсь с рядом трудностей. Одна из них, например, - необходимость последовательного извлечения сущностей из текста таким образом, чтобы последующие извлечения не пересекались с предыдщими, а затем склейка извлеченных сущностей на основании правил. Есть ли в yargy такой функционал?

Из примеров использования на гитхабе про даты есть https://github.com/asyncee/prophet-bot/blob/master/tests/test_times.py, https://github.com/kc41/tg_dobby/blob/master/tg_dobby/grammar/natural_dates.py

> Есть ли в yargy такой функционал
Абстрактное описание, ничего не понял

источник

15:55пожаловаться #13

AK

Alex Konst in Natural Language Processing

Можно ли в slovnet syntax сделать как-то fake-root?

источник

16:25пожаловаться #14

РН

Роман Некрасов... in Natural Language Processing

Приветы. Подскажите, какой тулзой для русских предложений можно найти подлежащее и сказуемое?

У Стэнфордской группы отличный синтаксический парсер stanza

источник

16:26пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

Можно ли в slovnet syntax сделать как-то fake-root?

после парсинга меняйте как угодно результаты и всё.

источник

16:49пожаловаться #16

YB

Yuri Baburov in Natural Language Processing

Роман Некрасов

У Стэнфордской группы отличный синтаксический парсер stanza

ну, смотря по какому параметру он отличный... он очень медленный, настолько, что даже более качественные варианты с bert с ним сравнимы по скорости.
я потому и говорю, что надо смотреть на сравнения, а не просто так рекомендовать что-то. https://github.com/natasha/naeval#syntax-parser

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

источник

16:51пожаловаться #17

РН

Роман Некрасов... in Natural Language Processing

ну, смотря по какому параметру он отличный... он очень медленный, настолько, что даже более качественные варианты с bert с ним сравнимы по скорости.
я потому и говорю, что надо смотреть на сравнения, а не просто так рекомендовать что-то. https://github.com/natasha/naeval#syntax-parser

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

Сравнивать исследовательские и промышленные движки не совсем корректно. Естественно, у них есть CoreNLP - сервер на Java, но без поддержки русского языка. Stanza для исследований языка хороша.

источник

17:01пожаловаться #18

DK

Denis Kirjanov in Natural Language Processing

Роман Некрасов

Сравнивать исследовательские и промышленные движки не совсем корректно. Естественно, у них есть CoreNLP - сервер на Java, но без поддержки русского языка. Stanza для исследований языка хороша.

почему некорректно? вопрос же про качество в том числе

вот результаты последней дорожки, я их тут не вижу помимо прочего

https://universaldependencies.org/iwpt20/Results.html

universaldependencies.org

Results Overview

Universal Dependencies Shared Task at IWPT 2020

источник

17:03пожаловаться #19

YB

Yuri Baburov in Natural Language Processing

Роман Некрасов

Сравнивать исследовательские и промышленные движки не совсем корректно. Естественно, у них есть CoreNLP - сервер на Java, но без поддержки русского языка. Stanza для исследований языка хороша.

я тоже не понимаю, почему их некорректно сравнивать... тем более, когда люди спрашивают про движок не для исследований механизма работы движков, а для практической цели. (зачем вообще тогда исследовательский движок предлагать?)

источник

17:19пожаловаться #20