Size: a a a

Natural Language Processing

2019 October 04

QQ

Qwerty Qwerton in Natural Language Processing
Ну там только +- и нейтральный
источник

GE

Galina Emets in Natural Language Processing
Qwerty Qwerton
Кто нибудь натыкался на анализ тональности текста на больше чем 3 эмоции? Чтобы там было всякое счасть, грусть и прочее? Не могу найти для русского такое
источник

AK

Alexander Kukushkin in Natural Language Processing
Михаил
Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov,  yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?
Я делал недавно сравнение. По pos-tagging sota для русского у получается у deeppavlov, на втором месте spacy, на третьем udpipe. Есть ещё rnnmorph, maru, но они обучены на данных morphrueval,  немного отличаются от universaldependencies, не получается сравнивать. По dep parsing первое место у spacy, второе у uppipe.

Кстати какие ещё существуют решение для pos tagging, dep parsing для русского? У меня получается udpipe, spacy, deeppavlov, rnnmorph, maru. Нужно такое что можно открыто скачать и запустить, например, abbyy compreno не подходит
источник

V

Vlad in Natural Language Processing
Alexander Kukushkin
Я делал недавно сравнение. По pos-tagging sota для русского у получается у deeppavlov, на втором месте spacy, на третьем udpipe. Есть ещё rnnmorph, maru, но они обучены на данных morphrueval,  немного отличаются от universaldependencies, не получается сравнивать. По dep parsing первое место у spacy, второе у uppipe.

Кстати какие ещё существуют решение для pos tagging, dep parsing для русского? У меня получается udpipe, spacy, deeppavlov, rnnmorph, maru. Нужно такое что можно открыто скачать и запустить, например, abbyy compreno не подходит
Вы в сравнении использовали "стоковый" spaCy или spaCy-ru?
источник

AK

Alexander Kukushkin in Natural Language Processing
источник

V

Vlad in Natural Language Processing
А, понял) Тогда лучше писать именно spacy-ru, ибо у самого spacy есть только мультиязычная модель)
источник

RK

Roman Kononov in Natural Language Processing
Alexander Kukushkin
Я делал недавно сравнение. По pos-tagging sota для русского у получается у deeppavlov, на втором месте spacy, на третьем udpipe. Есть ещё rnnmorph, maru, но они обучены на данных morphrueval,  немного отличаются от universaldependencies, не получается сравнивать. По dep parsing первое место у spacy, второе у uppipe.

Кстати какие ещё существуют решение для pos tagging, dep parsing для русского? У меня получается udpipe, spacy, deeppavlov, rnnmorph, maru. Нужно такое что можно открыто скачать и запустить, например, abbyy compreno не подходит
а извините за глупый вопрос - кто то из них в sentiment analisys умеет,
источник

AK

Alexander Kukushkin in Natural Language Processing
возможно deeppavlov
источник

SZ

Sergey Zakharov in Natural Language Processing
если про русский язык речь, то вот такое есть:
https://github.com/bureaucratic-labs/dostoevsky
источник

DK

Denis Kirjanov in Natural Language Processing
Alexander Kukushkin
Я делал недавно сравнение. По pos-tagging sota для русского у получается у deeppavlov, на втором месте spacy, на третьем udpipe. Есть ещё rnnmorph, maru, но они обучены на данных morphrueval,  немного отличаются от universaldependencies, не получается сравнивать. По dep parsing первое место у spacy, второе у uppipe.

Кстати какие ещё существуют решение для pos tagging, dep parsing для русского? У меня получается udpipe, spacy, deeppavlov, rnnmorph, maru. Нужно такое что можно открыто скачать и запустить, например, abbyy compreno не подходит
А почему нельзя рннморф сравнить? У него же выдача в conllu

Ну и есть конвертеры туда же для пайморфи и майстема, интересно, как у них
источник

AK

Alexander Kukushkin in Natural Language Processing
Технически сравнить можно, но это по-моему некорректно. В morphrueval например причастия помечаются ADJ, а в universaldepencies VERB (могу путать). Такое сложно сконвертировать
источник

AK

Alexander Kukushkin in Natural Language Processing
источник

V

Vlad in Natural Language Processing
Кстати, а регирование на подобные сообщения "нет-нет-нет мне не надо" (должен быть негатив в контексте моей ПрО) - это же sentiment analisys?
источник

DK

Denis Kirjanov in Natural Language Processing
Alexander Kukushkin
Технически сравнить можно, но это по-моему некорректно. В morphrueval например причастия помечаются ADJ, а в universaldepencies VERB (могу путать). Такое сложно сконвертировать
Можно эвристиками обработать
источник

AK

Alexander Kukushkin in Natural Language Processing
И не забыть оценить качество эвристик
источник

V

Vlad in Natural Language Processing
Я просто делал раньше своё решение на датасете из русских твитов (он вроде единственный большой датасет подобного плана), точность на этом же датасете примерно 75% получилась (можно дожать до 78%, но нету времени), и вот фразу "нет-нет-нет мне не надо" оно относит к негативу, но разница между классами меньше 0.1

А если во фразе вообще нету слов "нет", то может и к позитиву отнести
источник

DK

Denis Kirjanov in Natural Language Processing
Alexander Kukushkin
И не забыть оценить качество эвристик
Ага
Там с майстемом в принципе очень большой велосипед получался, но работал
источник

SM

SAP ML FAN in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
Alexander Kukushkin
Я делал недавно сравнение. По pos-tagging sota для русского у получается у deeppavlov, на втором месте spacy, на третьем udpipe. Есть ещё rnnmorph, maru, но они обучены на данных morphrueval,  немного отличаются от universaldependencies, не получается сравнивать. По dep parsing первое место у spacy, второе у uppipe.

Кстати какие ещё существуют решение для pos tagging, dep parsing для русского? У меня получается udpipe, spacy, deeppavlov, rnnmorph, maru. Нужно такое что можно открыто скачать и запустить, например, abbyy compreno не подходит
О, спасибо. Сравнение непубличное? Можем публичное сделать?
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
О, спасибо. Сравнение непубличное? Можем публичное сделать?
Ну и ещё подозреваю на своих данных все могут сильно просачиваться по качеству. Есть какой-нибудь тестовый датасет кроме тех четырёх из репозория UD?
источник