Size: a a a

Natural Language Processing

2020 July 06

AI

Andrew Ishutin in Natural Language Processing
TL;DR: обучили разные модели на: lowercase; uppercase; uppercase+lowercase; uppercase + truecased lowercase. Потестили каждую модель на lowercase и uppercase выборках. Сказали, какой метод обучения NER и POS модели лучше для чего.
источник

DK

Denis Kirjanov in Natural Language Processing
Yuri Baburov
такую же табличку посчитали для него.
cased uncased? или что?
источник

YB

Yuri Baburov in Natural Language Processing
Andrew Ishutin
Плюс, то, что я предложил не нужно дообучать. Нужен только truecaser для русского и готовая модель
да, это большой плюс, кстати.
источник

AI

Andrew Ishutin in Natural Language Processing
Denis Kirjanov
cased uncased? или что?
тестировали на cased/uncased . Обучали на разных комбинациях
источник

YB

Yuri Baburov in Natural Language Processing
Denis Kirjanov
cased uncased? или что?
ну, вопрос в том, что, когда надо пользователям посчитать готовые модели для dependency parsing, то что нам делать с текстом из тех же социальных сетей, который может быть иногда написан в нижнем регистре (или в непонятном регистре).
источник

AI

Andrew Ishutin in Natural Language Processing
или после asr системы
источник

YB

Yuri Baburov in Natural Language Processing
или после asr, да.
источник

DK

Denis Kirjanov in Natural Language Processing
Yuri Baburov
ну, вопрос в том, что, когда надо пользователям посчитать готовые модели для dependency parsing, то что нам делать с текстом из тех же социальных сетей, который может быть иногда написан в нижнем регистре (или в непонятном регистре).
свой dependency parsing учить, имхо. Там главное -- с пунктуацией трэш
источник

YB

Yuri Baburov in Natural Language Processing
Denis Kirjanov
свой dependency parsing учить, имхо. Там главное -- с пунктуацией трэш
а там отдельного датасета нет обычно все равно.
источник

DK

Denis Kirjanov in Natural Language Processing
Yuri Baburov
а там отдельного датасета нет обычно все равно.
ну да -- собирать
источник

YB

Yuri Baburov in Natural Language Processing
Denis Kirjanov
ну да -- собирать
ну вот. а авторы предложили 4 разных способа использовать готовый датасет и померили их.
источник

D

Dmitriy in Natural Language Processing
@alexkuk Не попадалось ли вам среди применений yargy полномасштабная задача извлечения дат и времени из текста в произвольном формате? Я пробую реализовать это и сталкиваюсь с рядом трудностей. Одна из них, например, - необходимость последовательного извлечения сущностей из текста таким образом, чтобы последующие извлечения не пересекались с предыдщими, а затем склейка извлеченных сущностей на основании правил. Есть ли в yargy такой функционал?
источник

AK

Alexander Kukushkin in Natural Language Processing
Dmitriy
@alexkuk Не попадалось ли вам среди применений yargy полномасштабная задача извлечения дат и времени из текста в произвольном формате? Я пробую реализовать это и сталкиваюсь с рядом трудностей. Одна из них, например, - необходимость последовательного извлечения сущностей из текста таким образом, чтобы последующие извлечения не пересекались с предыдщими, а затем склейка извлеченных сущностей на основании правил. Есть ли в yargy такой функционал?
Из примеров использования на гитхабе про даты есть https://github.com/asyncee/prophet-bot/blob/master/tests/test_times.py, https://github.com/kc41/tg_dobby/blob/master/tg_dobby/grammar/natural_dates.py

> Есть ли в yargy такой функционал
Абстрактное описание, ничего не понял
источник

AK

Alex Konst in Natural Language Processing
Можно ли в slovnet syntax сделать как-то fake-root?
источник

РН

Роман Некрасов... in Natural Language Processing
Alex Konst
Приветы. Подскажите, какой тулзой для русских предложений можно найти подлежащее и сказуемое?
У Стэнфордской группы отличный синтаксический парсер stanza
источник

YB

Yuri Baburov in Natural Language Processing
Alex Konst
Можно ли в slovnet syntax сделать как-то fake-root?
после парсинга меняйте как угодно результаты и всё.
источник

YB

Yuri Baburov in Natural Language Processing
Роман Некрасов
У Стэнфордской группы отличный синтаксический парсер stanza
ну, смотря по какому параметру он отличный... он очень медленный, настолько, что даже более качественные варианты с bert с ним сравнимы по скорости.
я потому и говорю, что надо смотреть на сравнения, а не просто так рекомендовать что-то. https://github.com/natasha/naeval#syntax-parser
источник

РН

Роман Некрасов... in Natural Language Processing
Yuri Baburov
ну, смотря по какому параметру он отличный... он очень медленный, настолько, что даже более качественные варианты с bert с ним сравнимы по скорости.
я потому и говорю, что надо смотреть на сравнения, а не просто так рекомендовать что-то. https://github.com/natasha/naeval#syntax-parser
Сравнивать исследовательские и промышленные движки не совсем корректно. Естественно, у них есть CoreNLP - сервер на Java, но без поддержки русского языка. Stanza для исследований языка хороша.
источник

DK

Denis Kirjanov in Natural Language Processing
Роман Некрасов
Сравнивать исследовательские и промышленные движки не совсем корректно. Естественно, у них есть CoreNLP - сервер на Java, но без поддержки русского языка. Stanza для исследований языка хороша.
почему некорректно? вопрос же про качество в том числе

вот результаты последней дорожки, я их тут не вижу помимо прочего

https://universaldependencies.org/iwpt20/Results.html
источник

YB

Yuri Baburov in Natural Language Processing
Роман Некрасов
Сравнивать исследовательские и промышленные движки не совсем корректно. Естественно, у них есть CoreNLP - сервер на Java, но без поддержки русского языка. Stanza для исследований языка хороша.
я тоже не понимаю, почему их некорректно сравнивать... тем более, когда люди спрашивают про движок не для исследований механизма работы движков, а для практической цели. (зачем вообще тогда исследовательский движок предлагать?)
источник