Size: a a a

Natural Language Processing

2020 February 28

YB

Yuri Baburov in Natural Language Processing
нашёл несколько работ:
https://www.researchgate.net/publication/326255407_Automatic_Keyphrase_Extraction_Using_Recurrent_Neural_Networks (платная)
*и Deep Keyphrase Generation https://arxiv.org/abs/1704.06879
пытаются сгенерировать фразы для текста.
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
а как ты задизайнишь целевую функцию и лосс при такой задаче?
вот не выделили слово — это потому что оно менее важное или потому что в прошлый раз рядом было другое важное слово и выделили его?
Никак.
А что termextractor считает целевой функцией?
источник

YB

Yuri Baburov in Natural Language Processing
качество — сравнимо с подходами на правилах.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Никак.
А что termextractor считает целевой функцией?
в общем, целевая функция — совпадение с ключевыми словами в датасете, полное или частичное.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
в общем, целевая функция — совпадение с ключевыми словами в датасете, полное или частичное.
и что-то типа attention+generation получается, на основе вектора темы параграфа и векторов слов.
в общем, seq2seq/transformers тут заходят как раз.
а потом фразы-кандидаты ещё и перевзвешивать можно наверное второй сеткой.
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
в общем, целевая функция — совпадение с ключевыми словами в датасете, полное или частичное.
Не занимался этой задачей. Только rutermextract как-то по-быстрому прикрутил.
Какие есть датасеты для русского чтобы попробовать?
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Не занимался этой задачей. Только rutermextract как-то по-быстрому прикрутил.
Какие есть датасеты для русского чтобы попробовать?
rutermextract все подряд noun chunks извлекает, нормализует, потом их скорит по tf-idf.
это и есть базовый алгоритм. textrank покруче будет, он ещё учитывает взаимодействие между словами.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Не занимался этой задачей. Только rutermextract как-то по-быстрому прикрутил.
Какие есть датасеты для русского чтобы попробовать?
какие-нибудь базы статей с ключевыми словами... новостные сайты с ключевыми словами... любые сайты, где есть темы (темы как приближение ключевых слов)...
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
rutermextract все подряд noun chunks извлекает, нормализует, потом их скорит по tf-idf.
это и есть базовый алгоритм. textrank покруче будет, он ещё учитывает взаимодействие между словами.
взаимодействие между словами - это частоты Н-грамм? Или даже синтаксически связанные поддеревья?
источник

ck

cnstntn kndrtv in Natural Language Processing
co-occurence еще, наверное, может быть, если синтаксический анализ не подключать (в рамках какого-то окна наверное)
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
взаимодействие между словами - это частоты Н-грамм? Или даже синтаксически связанные поддеревья?
https://rdrr.io/cran/textrank/man/textrank_keywords.html
там хорошее краткое описание
источник

ck

cnstntn kndrtv in Natural Language Processing
спасибо. ужасно интересно всё что неизвестно)) еще бы времени на всё хватало
источник
2020 February 29

NK

Nikolay Karelin in Natural Language Processing
cnstntn kndrtv
взаимодействие между словами - это частоты Н-грамм? Или даже синтаксически связанные поддеревья?
Лучше оригинальную статью Rada Mihalcea почитать. Очень ясно написана.
источник

dl

dzmitry lahoda in Natural Language Processing
Nikolay Karelin
Лучше оригинальную статью Rada Mihalcea почитать. Очень ясно написана.
Может знаете списочек какой статей от простого к сложному по теме канала?
источник

ck

cnstntn kndrtv in Natural Language Processing
dzmitry lahoda
Может знаете списочек какой статей от простого к сложному по теме канала?
не самый лучший вариант, но объяснение от простого к сложному есть https://monkeylearn.com/keyword-extraction/
источник

NO

Nikita O in Natural Language Processing
Давайте обсудим один момент с негативным семплированием в w2v. Обычно общую идею w2v показывают на какой-то такой картинке. Есть слова на входе, есть слова на выходе, они связаны по смыслу, по середине имеем эмбеддинги.
источник

NO

Nikita O in Natural Language Processing
источник

NO

Nikita O in Natural Language Processing
Если мы будем это обучать с помощью бэкпропа, при этом на каждом шаге будет изменяться вся матрица эмбеддингов,  но для большинства слов, которыех нет в контексте изменения будут незначительные, но на это тратятся вычисления и это плохо, поэтому давайте не будем трогать большинство слов, а засемплируем штук 5 и для них обновим веса.
источник

NO

Nikita O in Natural Language Processing
Звучит хорошо, но обычно после этого идет конкретная математическая реализация этой идеи в виде формулы:
источник

NO

Nikita O in Natural Language Processing
источник