Size: a a a

Natural Language Processing

2021 December 13

SancheZz Мов in Natural Language Processing
Pymorphy не инфлектит?
источник

V

Vitalya in Natural Language Processing
Такую возможность с помощью него не разгадал как делать, если это можно
источник

BZ

Below Zero in Natural Language Processing
я бы подбирал максимально близкое прилагательное через fasttext
источник

V

Vitalya in Natural Language Processing
Ага, одно из первых, что в голову приходит, но кажется, что долго работать будет. Есть ограничения по времени
источник

BZ

Below Zero in Natural Language Processing
если сделать кэш по первым двум буквам, уже гораздо быстрее
источник

YB

Yuri Baburov in Natural Language Processing
В pymorphy не стали добавлять связи между типами в *отдельном API, потому что сразу возникают вопросы, какие связи нужны, а какие нет (брань-бранное-отобранное-отобранность-отобрано-отобранный-отбираемый-отбирать-брать-беру-берущий-берущийся , а теперь назовите каждую пару отношений в обе стороны, пожалуйста, по частям речи тут на каждую по несколько форм получается), в каком виде их представлять, как компактно хранить (было актуально в 2012м!), да и датасетов мало было в 2012-2015м. Но в opencorpora, откуда с 2015г берётся БД для pymorphy, часть отношений между словами есть (помогайте контрибутить остальные!).
Берите дамп opencorpora для калибровки, и вперёд писать универсальную и качественную ML модель для этой задачи (DL плох, когда мало примеров каждого класса и много исключений, поэтому морфология и семантика русского плохо ему даётся, ну вы понимаете).
источник

SancheZz Мов in Natural Language Processing
Not bad
источник

SancheZz Мов in Natural Language Processing
Челлендж
источник

YB

Yuri Baburov in Natural Language Processing
Апресян, Мельчук (могу немного перепутать авторов) вон такие семантические словообразовательные гнёзда по 100-400 единиц в каждом описывают, несколько бумажных (неформализованных) томов написали, емнип.
Есть ли у морфо-синтактико-семантических единиц какая-то общая структура? Никто не знает, до такой степени не обобщили ещё, можно кандидатскую и докторскую спокойно защищать по компьютерной лингвистике.
Вот кстати нашёл такое, 2021 год:
https://books.google.ru/books?id=77kUEAAAQBAJ
источник

KS

Konstantin Smith in Natural Language Processing
В Pullenti есть встроенный словарь так называемых дериватных групп (их сейчас около 14000), группа как раз содержит такие однокоренные слова разных частей речи. Работать с ним можно через функцию DerivateService.FindDerivates из пакета Pullenti.Semantic.Utils. На вход подаётся слово в нормальной форме и верхнем регистре. Возвращает одну или несколько групп, куда она входит. В группе можно найти словоформу нужной части речи.
источник

V

Vitalya in Natural Language Processing
Супер, спасибо всем!
источник

KC

Kseniia Cheloshkina in Natural Language Processing
Всем привет! Ни у кого случайно не сохранен датасет RuTweetCorp (https://study.mokoron.com/) ? По ссылке уже недоступен.
источник

SB

Stepan Barkhatov in Natural Language Processing
Коллеги, привет! Давид недавно кидал сюда ссылку на либу для упражнения генерации текста с ограничением на словарь, из которого может состоять генерируемый текст. Типа constrained vocabulary text generation. Можете скинуть ссылку, пожалуйста? Не могу найти. Спасибо!
источник

DD

David Dale in Natural Language Processing
Привет! Нет, сюда Давид ещё эту ссылку не кидал. Теперь – кинул)
источник

DD

David Dale in Natural Language Processing
Задача, о которой часто спрашивают в чятиках: "как заставить мой трансформер сгенерировать текст, который бы обязательно содержал определённые слова или их сочетания?"

Задача называется lexically constrained decoding, и у неё есть несколько неплохих решений, основанных на модификациях beam search'а.
Держите ссылку на статьи и их имплементацию коллегами из FAIR: https://github.com/pytorch/fairseq/tree/main/examples/constrained_decoding
источник

SB

Stepan Barkhatov in Natural Language Processing
Вот где я это видел! Спасибо!
источник

VM

Victor Maslov in Natural Language Processing
> как компактно хранить (было актуально в 2012м!)

это всегда будет актуально
источник

SS

Sergey Shulga in Natural Language Processing
всем привет. Нубский вопрос - а как запустить модель с hugging face, если описания нет, а только вариант: from transformers import AutoModel

model = AutoModel.from_pretrained...  Ну и я знаю, что это модель бертовая и это нер...
источник

SS

Sergey Shulga in Natural Language Processing
вариант через pipline не взлетает, так как ругается на неподходящий таск ("ner")
источник
2021 December 14

DD

David Dale in Natural Language Processing
Если эта модель действительно обучалась на NER, то нужно запускать не AutoModel (она безголовая), а AutoModelForTokenClassification (там последний слой предсказывает для каждого токена его метку).
источник