Size: a a a

Natural Language Processing

2019 December 16

П

Павел in Natural Language Processing
David (ddale) Dale
Друзья, а кто умеет эффективно скукоживать fasttext? Не классификатор, а именно кусок, который эмбеддинги для OOV слов составляет.
Пока что нашёл статьюшку Андрея Васнецова (https://medium.com/@vasnetsov93/shrinking-fasttext-embeddings-so-that-it-fits-google-colab-cd59ab75959e) и буду её пробовать, но может у кого-нибудь ещё опыт есть такой)
Есть ещё magnitude, но там не скукоживают, а складывают в sqlite, и техника обработки OOV там своя.

https://github.com/plasticityai/magnitude
источник

OS

Oleg Serikov in Natural Language Processing
David (ddale) Dale
Друзья, а кто умеет эффективно скукоживать fasttext? Не классификатор, а именно кусок, который эмбеддинги для OOV слов составляет.
Пока что нашёл статьюшку Андрея Васнецова (https://medium.com/@vasnetsov93/shrinking-fasttext-embeddings-so-that-it-fits-google-colab-cd59ab75959e) и буду её пробовать, но может у кого-нибудь ещё опыт есть такой)
а димредукшном в лоб не вариант, мб вы уже пробовали?
источник

D(

David (ddale) Dale in Natural Language Processing
Oleg Serikov
а димредукшном в лоб не вариант, мб вы уже пробовали?
Пока нет, но буду) Ибо метод от Андрея у меня с русским так себе зашёл.

Fasttext же просто суммирует векторы всех н-грам при вычислении вектора слова?
Если да, то можно матрицу эмбеддингов пожать, а финальный результат расширить назад.
А вот если там есть нелинейности, то придется в кишки gensim, видимо, лезть
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Пока нет, но буду) Ибо метод от Андрея у меня с русским так себе зашёл.

Fasttext же просто суммирует векторы всех н-грам при вычислении вектора слова?
Если да, то можно матрицу эмбеддингов пожать, а финальный результат расширить назад.
А вот если там есть нелинейности, то придется в кишки gensim, видимо, лезть
Да, вроде бы суммирует. Где-то в генсим можно было посмотреть код на питоне, как это происходит.
источник

АК

Андрей Ключаревский in Natural Language Processing
Привет! Делаю генератор комментариев на gpt2simple - не могу разобраться как ему скормить текст, чтобы он учитывал разметку. До этого пользовался грувером и вроде неплохо, но охота что-то поинтереснее попробовать
источник

SP

Sebastian Pereira in Natural Language Processing
В правилах нет запрета, выкладывайте.
источник

АК

Андрей Ключаревский in Natural Language Processing
Андрей Ключаревский
Привет! Делаю генератор комментариев на gpt2simple - не могу разобраться как ему скормить текст, чтобы он учитывал разметку. До этого пользовался грувером и вроде неплохо, но охота что-то поинтереснее попробовать
Gpt 2 simple  генерирует почему-то то же самое что дано на входе..
Температуру поднял до 1, ничего не помогает. Помогите неразумному:) отметил комментарием в колабе
https://colab.research.google.com/drive/1ODDjIyF3hEt3pR2Z9XwP8K1mG0qNIKPB
источник

MK

Marianna Kovalova in Natural Language Processing
Всем привет! Подскажите, можно ли как-то оценить, что поиск схожих документов работает хорошо?
источник

B

Brenoritvrezorkre in Natural Language Processing
Мы давно не рассказывали вам об исследованиях, которые в качестве инструментов используют модели RusVectōrēs. Сегодня мы возобновим эту славную традицию и познакомим вас со статьей Полины Паничевой и Татьяны Литвиновой "Semantic Coherence in Schizophrenia in Russian Written Texts". Это исследование использует методы author profiling по отношению к текстам людей, страдающих шизофренией. Главный вопрос исследования - можно ли отличить тексты людей, больных шизофренией, от текстов здоровых людей? Основной признак, по которому сравниваются данные - semantic coherence (семантическая связность).

Семантическая связность определяется как средний коэффициент косинусной близости двух векторов слов, подсчитанный для определенных n-грамм. Например, в предложении "Снесла курочка яичко, да не простое, а золотое" коэффициент семантической связности для триграммы "Снесла курочка яичко" (окно размера 3) подсчитывается как средний коэффициент косинусной близости между векторами слов "снесла" и "курочка", "курочка" и "яичко". Каждый текст характеризуется последовательностью таких коэффициентов для всех n-грамм (в нашем примере выше мы использовали триграммы). Авторы выделяют несколько метрик, с помощью которых можно сравнивать тексты: минимальное и максимальное значения коэффициента семантической связности, среднее значение коэффициента, стандартное отклонение и др. Для вычисления косинусной близости между векторами слов в тексте авторы используют модель RusVectōrēs с идентификатором ruwikiruscorpora_upos_skipgram_300_2_2018.

Исследование показало, что между текстами людей, больных шизофренией, и текстами здоровых людей имеются существенные различия. Авторы добились точности от 0.72 до 0.88 при автоматическом опредлении принадлежности текста к той или иной группе данных. В то же время, анализ результатов для русского языка противоречит исследованиям, проведенным для английского языка. Например, минимальный коэффициент семантической связности оказывается ниже для текстов здоровых людей, в то время как в английском языке прослеживалась обратная тенденция.

В целом, нам кажется, что это интересное исследование демонстрирует, как разнообразны сферы NLP, в которых применимы модели векторной семантики. Успехов авторам, а мы надеемся прочесть ещё множество замечательных статей, где в качестве инструментов используются модели RusVectōrēs!
источник

M

Md sohaib in Natural Language Processing
источник

A

Alex in Natural Language Processing
Доброго времени суток, уважаемые знатоки.
Прошу поддержать в поиске инструмента для выделения ключевых фраз.

Дано:
Тхт корпус текстов, заранее сгруппированные по тематике.
Задача:
Выявить ключевые фразы для целей SEO.

Как вы понимаете, фразы могут состоять как из одного слова, так из двух или трёх. Больше 3 слов во фразе не ожидается.

Помогите, пожалуйста, найти инструмент для автоматического прогнозирования наиболее вероятных ключевых фраз, основываясь на корпусе текстов. Каждый корпус состоит из сбора статей по теме в одном файле в текстовом виде, разделены через точку.

Заранее благодарю за помощь!
источник

AZ

Andrey Zakharov in Natural Language Processing
Alex
Доброго времени суток, уважаемые знатоки.
Прошу поддержать в поиске инструмента для выделения ключевых фраз.

Дано:
Тхт корпус текстов, заранее сгруппированные по тематике.
Задача:
Выявить ключевые фразы для целей SEO.

Как вы понимаете, фразы могут состоять как из одного слова, так из двух или трёх. Больше 3 слов во фразе не ожидается.

Помогите, пожалуйста, найти инструмент для автоматического прогнозирования наиболее вероятных ключевых фраз, основываясь на корпусе текстов. Каждый корпус состоит из сбора статей по теме в одном файле в текстовом виде, разделены через точку.

Заранее благодарю за помощь!
Можно попробовать тематическую модель на 1-2 граммах
Как второй подход, научить классификатор и вытащить из модели feature importance
источник

A

Alex in Natural Language Processing
Andrey Zakharov
Можно попробовать тематическую модель на 1-2 граммах
Как второй подход, научить классификатор и вытащить из модели feature importance
Андрей, какой питон библиотекой имеет смысл пробовать? Желательно чтобы русский язык был сразу "под капотом"
источник

AZ

Andrey Zakharov in Natural Language Processing
Alex
Андрей, какой питон библиотекой имеет смысл пробовать? Желательно чтобы русский язык был сразу "под капотом"
текстов много? какого размера?
источник

A

Alex in Natural Language Processing
Понимаю, что надо нормализовать в случае word2vec.. может есть проще вариант
источник

A

Alex in Natural Language Processing
Andrey Zakharov
текстов много? какого размера?
На каждую тематику примерно 10 000 знаков, но нет проблем собрать больше
источник

AZ

Andrey Zakharov in Natural Language Processing
бейслайн здесь - countvectorizer/tfidfvectorize  + LDA  , как мне кажется
источник

A

Alex in Natural Language Processing
Тематик до 10 штук в каждом случае
источник

A

Alex in Natural Language Processing
Andrey Zakharov
бейслайн здесь - countvectorizer/tfidfvectorize  + LDA  , как мне кажется
Благодарю, попробую
источник

ck

cnstntn kndrtv in Natural Language Processing
А если посчитать разницу частот слов в темах и во всем корпусе (или в другом, например новостном)?
Получится простой, интерпретируемый подход.
источник