Size: a a a

Natural Language Processing

2021 November 30

Eg

Elena gisly in Natural Language Processing
источник

AK

Anton Kolonin in Natural Language Processing
А как ВСЕ формы сгенерить за раз?
источник

Eg

Elena gisly in Natural Language Processing
за раз не знаю, но я бы в цикле перебрала все граммемы и удалила бы потом дубли...
источник

AK

Anton Kolonin in Natural Language Processing
дубли удалить не вопрос. перебор графем там есть ли надо вручную дергать все варианты в зависимости от части речи?
источник

Eg

Elena gisly in Natural Language Processing
думаю, что вручную. Не знаю, есть ли инструмент, который одной командой генерит всё.
источник

ТИ

Танненберг Илья... in Natural Language Processing
Есть же вроде атрибут lexeme, где все лексемы собраны
источник

ТИ

Танненберг Илья... in Natural Language Processing
источник

Eg

Elena gisly in Natural Language Processing
круто, не знала, спасибо!)
источник

AK

Anton Kolonin in Natural Language Processing
Спасибо! Работает!
А однокоренные слова:

бутявка
=>
бутявочить,бутявочно,бутявочный

можно получить?
источник

ТИ

Танненберг Илья... in Natural Language Processing
Вот однокоренные я в своей работе не победил( в работе Екатерины Пронозы и Елены Ягуновой https://www.researchgate.net/publication/300138252_Low-Level_Features_for_Paraphrase_Identification упоминалось об использовании словаря Тихонова для этой задачи, но его найти в удобном для применения виде у меня не получилось.
Может быть коллеги отзовутся и помогут, был бы рад)
источник

AK

Anton Kolonin in Natural Language Processing
источник

ТИ

Танненберг Илья... in Natural Language Processing
Вообще да,
есть на гите реализации по парсингу ruwordnet, но работает медленно.
Кроме того, есть ощущение, что на сайте более полная версия, потому как однокоренные слова не ищутся в скачанной версии ruwordnet (допускаю что плохо искал)
источник

DP

Denis Pizhevsky in Natural Language Processing
на гите за 2020 год данные
источник

DP

Denis Pizhevsky in Natural Language Processing
они статичны с сайтом не связаны
источник

ТИ

Танненберг Илья... in Natural Language Processing
Я запрашивал новую версию, у Натальи Валентиновны Лукашевич, но там тоже однокоренные не нашел.
источник

KS

Konstantin Smith in Natural Language Processing
В pullenti есть однокоренные слова, объединенные в так называемые дериватные группы. Там сейчас около 15000 групп однокоренных слов.
источник

ТИ

Танненберг Илья... in Natural Language Processing
Класс👍
источник

TM

Toemik Mnemonic in Natural Language Processing
есть подходящие данные для файнтюнинга : хочется в тексте определять токены связанные с преступлениями (существительные, глаголы соответствующие названию ст ук или ак и тд) ? или все х-ня давай сначала?
источник

DD

David Dale in Natural Language Processing
Есть короткие тексты, размеченные по стрёмным темам, в число которых входит и преступность. Можно попробовать начать с них. https://github.com/skoltech-nlp/inappropriate-sensitive-topics
источник

TM

Toemik Mnemonic in Natural Language Processing
спасибо, гляну, думаю как основа пойдет
источник