Телеграмм чат группы natural_language

Automatic Keyphrase Extraction Using Recurrent Neural Networks | Request PDF

нашёл несколько работ:
https://www.researchgate.net/publication/326255407_Automatic_Keyphrase_Extraction_Using_Recurrent_Neural_Networks (платная)
*и Deep Keyphrase Generation https://arxiv.org/abs/1704.06879
пытаются сгенерировать фразы для текста.

ResearchGate

Request PDF | Automatic Keyphrase Extraction Using Recurrent Neural Networks | Automatic Keyphrase Extraction describes the process of extracting keywords or keyphrases from the body of a document. To our knowledge until now... | Find, read and cite all the research you need on ResearchGate

20:23пожаловаться #1

ck

а как ты задизайнишь целевую функцию и лосс при такой задаче?
вот не выделили слово — это потому что оно менее важное или потому что в прошлый раз рядом было другое важное слово и выделили его?

Никак.
А что termextractor считает целевой функцией?

20:23пожаловаться #2

YB

Automatic Keyphrase Extraction Using Recurrent Neural Networks | Request PDF

нашёл несколько работ:
https://www.researchgate.net/publication/326255407_Automatic_Keyphrase_Extraction_Using_Recurrent_Neural_Networks (платная)
*и Deep Keyphrase Generation https://arxiv.org/abs/1704.06879
пытаются сгенерировать фразы для текста.

ResearchGate

Request PDF | Automatic Keyphrase Extraction Using Recurrent Neural Networks | Automatic Keyphrase Extraction describes the process of extracting keywords or keyphrases from the body of a document. To our knowledge until now... | Find, read and cite all the research you need on ResearchGate

качество — сравнимо с подходами на правилах.

20:23пожаловаться #3

YB

Никак.
А что termextractor считает целевой функцией?

в общем, целевая функция — совпадение с ключевыми словами в датасете, полное или частичное.

20:52пожаловаться #4

YB

в общем, целевая функция — совпадение с ключевыми словами в датасете, полное или частичное.

и что-то типа attention+generation получается, на основе вектора темы параграфа и векторов слов.
в общем, seq2seq/transformers тут заходят как раз.
а потом фразы-кандидаты ещё и перевзвешивать можно наверное второй сеткой.

21:01пожаловаться #5

ck

в общем, целевая функция — совпадение с ключевыми словами в датасете, полное или частичное.

Не занимался этой задачей. Только rutermextract как-то по-быстрому прикрутил.
Какие есть датасеты для русского чтобы попробовать?

21:12пожаловаться #6

YB

Не занимался этой задачей. Только rutermextract как-то по-быстрому прикрутил.
Какие есть датасеты для русского чтобы попробовать?

rutermextract все подряд noun chunks извлекает, нормализует, потом их скорит по tf-idf.
это и есть базовый алгоритм. textrank покруче будет, он ещё учитывает взаимодействие между словами.

21:16пожаловаться #7

YB

Не занимался этой задачей. Только rutermextract как-то по-быстрому прикрутил.
Какие есть датасеты для русского чтобы попробовать?

какие-нибудь базы статей с ключевыми словами... новостные сайты с ключевыми словами... любые сайты, где есть темы (темы как приближение ключевых слов)...

21:18пожаловаться #8

ck

rutermextract все подряд noun chunks извлекает, нормализует, потом их скорит по tf-idf.
это и есть базовый алгоритм. textrank покруче будет, он ещё учитывает взаимодействие между словами.

взаимодействие между словами - это частоты Н-грамм? Или даже синтаксически связанные поддеревья?

21:18пожаловаться #9

ck

co-occurence еще, наверное, может быть, если синтаксический анализ не подключать (в рамках какого-то окна наверное)

21:21пожаловаться #10

YB

textrank_keywords: Textrank - extract relevant keywords in textrank: Summarize Text by Ranking Sentences and Finding Keywords

взаимодействие между словами - это частоты Н-грамм? Или даже синтаксически связанные поддеревья?

https://rdrr.io/cran/textrank/man/textrank_keywords.html
там хорошее краткое описание

rdrr.io

The textrank algorithm allows to find relevant keywords in text.
Where keywords are a combination of words following each other.
In order to find relevant keywords, the textrank algorithm constructs a word network. This
network is constructed by looking which words follow one another.
A link is set up between two words if they follow one another, the link gets a higher weight if these 2 words occur
more frequenctly next to each other in the text.
On top of the resulting network the 'Pagerank' algorithm is applied to get the importance of each word.
The top 1/3 of all these words are kept and are considered relevant. After this, a keywords table is constructed
by combining the relevant words together if they appear following one another in the text.

21:22пожаловаться #11

ck

textrank_keywords: Textrank - extract relevant keywords in textrank: Summarize Text by Ranking Sentences and Finding Keywords

https://rdrr.io/cran/textrank/man/textrank_keywords.html
там хорошее краткое описание

rdrr.io

The textrank algorithm allows to find relevant keywords in text.
Where keywords are a combination of words following each other.
In order to find relevant keywords, the textrank algorithm constructs a word network. This
network is constructed by looking which words follow one another.
A link is set up between two words if they follow one another, the link gets a higher weight if these 2 words occur
more frequenctly next to each other in the text.
On top of the resulting network the 'Pagerank' algorithm is applied to get the importance of each word.
The top 1/3 of all these words are kept and are considered relevant. After this, a keywords table is constructed
by combining the relevant words together if they appear following one another in the text.

спасибо. ужасно интересно всё что неизвестно)) еще бы времени на всё хватало

Nikolay Karelin in Natural Language Processing

21:23пожаловаться #12

2020 February 29

NK

взаимодействие между словами - это частоты Н-грамм? Или даже синтаксически связанные поддеревья?

Лучше оригинальную статью Rada Mihalcea почитать. Очень ясно написана.

dzmitry lahoda in Natural Language Processing

13:27пожаловаться #13

dl

Nikolay Karelin

Лучше оригинальную статью Rada Mihalcea почитать. Очень ясно написана.

Может знаете списочек какой статей от простого к сложному по теме канала?

14:19пожаловаться #14

ck

A Comprehensive Guide to Keyword Extraction analysis: what it is, how it works, use cases & applications, tutorials, and more.

dzmitry lahoda

Может знаете списочек какой статей от простого к сложному по теме канала?

не самый лучший вариант, но объяснение от простого к сложному есть https://monkeylearn.com/keyword-extraction/

MonkeyLearn

Keyword Extraction

14:33пожаловаться #15

NO

Давайте обсудим один момент с негативным семплированием в w2v. Обычно общую идею w2v показывают на какой-то такой картинке. Есть слова на входе, есть слова на выходе, они связаны по смыслу, по середине имеем эмбеддинги.

17:38пожаловаться #16

NO

17:38пожаловаться #17

NO

Если мы будем это обучать с помощью бэкпропа, при этом на каждом шаге будет изменяться вся матрица эмбеддингов, но для большинства слов, которыех нет в контексте изменения будут незначительные, но на это тратятся вычисления и это плохо, поэтому давайте не будем трогать большинство слов, а засемплируем штук 5 и для них обновим веса.

17:42пожаловаться #18

NO

Звучит хорошо, но обычно после этого идет конкретная математическая реализация этой идеи в виде формулы:

17:44пожаловаться #19

NO