Телеграмм чат группы natural_language_processing страница 510

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 December 16

П

Павел in Natural Language Processing

David (ddale) Dale

Друзья, а кто умеет эффективно скукоживать fasttext? Не классификатор, а именно кусок, который эмбеддинги для OOV слов составляет.
Пока что нашёл статьюшку Андрея Васнецова (https://medium.com/@vasnetsov93/shrinking-fasttext-embeddings-so-that-it-fits-google-colab-cd59ab75959e) и буду её пробовать, но может у кого-нибудь ещё опыт есть такой)

Shrinking fastText embeddings so that it fits Google Colab

Attempt to compress fastText so it takes 2Gb of RAM instead of 16Gb. Keep new model 94% similar to the original model.

Есть ещё magnitude, но там не скукоживают, а складывают в sqlite, и техника обработки OOV там своя.

https://github.com/plasticityai/magnitude

plasticityai/magnitude

A fast, efficient universal vector embedding utility package. - plasticityai/magnitude

источник

15:45пожаловаться #1

OS

Oleg Serikov in Natural Language Processing

David (ddale) Dale

Друзья, а кто умеет эффективно скукоживать fasttext? Не классификатор, а именно кусок, который эмбеддинги для OOV слов составляет.
Пока что нашёл статьюшку Андрея Васнецова (https://medium.com/@vasnetsov93/shrinking-fasttext-embeddings-so-that-it-fits-google-colab-cd59ab75959e) и буду её пробовать, но может у кого-нибудь ещё опыт есть такой)

Shrinking fastText embeddings so that it fits Google Colab

Attempt to compress fastText so it takes 2Gb of RAM instead of 16Gb. Keep new model 94% similar to the original model.

а димредукшном в лоб не вариант, мб вы уже пробовали?

источник

15:51пожаловаться #2

D(

David (ddale) Dale in Natural Language Processing

а димредукшном в лоб не вариант, мб вы уже пробовали?

Пока нет, но буду) Ибо метод от Андрея у меня с русским так себе зашёл.

Fasttext же просто суммирует векторы всех н-грам при вычислении вектора слова?
Если да, то можно матрицу эмбеддингов пожать, а финальный результат расширить назад.
А вот если там есть нелинейности, то придется в кишки gensim, видимо, лезть

источник

15:54пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

David (ddale) Dale

Пока нет, но буду) Ибо метод от Андрея у меня с русским так себе зашёл.

Fasttext же просто суммирует векторы всех н-грам при вычислении вектора слова?
Если да, то можно матрицу эмбеддингов пожать, а финальный результат расширить назад.
А вот если там есть нелинейности, то придется в кишки gensim, видимо, лезть

Да, вроде бы суммирует. Где-то в генсим можно было посмотреть код на питоне, как это происходит.

источник

15:59пожаловаться #4

АК

Андрей Ключаревский in Natural Language Processing

Привет! Делаю генератор комментариев на gpt2simple - не могу разобраться как ему скормить текст, чтобы он учитывал разметку. До этого пользовался грувером и вроде неплохо, но охота что-то поинтереснее попробовать

источник

16:29пожаловаться #5

SP

Sebastian Pereira in Natural Language Processing

В правилах нет запрета, выкладывайте.

источник

16:33пожаловаться #6

АК

Андрей Ключаревский in Natural Language Processing

Андрей Ключаревский

Привет! Делаю генератор комментариев на gpt2simple - не могу разобраться как ему скормить текст, чтобы он учитывал разметку. До этого пользовался грувером и вроде неплохо, но охота что-то поинтереснее попробовать

Gpt 2 simple генерирует почему-то то же самое что дано на входе..
Температуру поднял до 1, ничего не помогает. Помогите неразумному:) отметил комментарием в колабе
https://colab.research.google.com/drive/1ODDjIyF3hEt3pR2Z9XwP8K1mG0qNIKPB

Google Colaboratory

источник

17:58пожаловаться #7

MK

Marianna Kovalova in Natural Language Processing

Всем привет! Подскажите, можно ли как-то оценить, что поиск схожих документов работает хорошо?

источник

18:51пожаловаться #8

B

Brenoritvrezorkre in Natural Language Processing

Мы давно не рассказывали вам об исследованиях, которые в качестве инструментов используют модели RusVectōrēs. Сегодня мы возобновим эту славную традицию и познакомим вас со статьей Полины Паничевой и Татьяны Литвиновой "Semantic Coherence in Schizophrenia in Russian Written Texts". Это исследование использует методы author profiling по отношению к текстам людей, страдающих шизофренией. Главный вопрос исследования - можно ли отличить тексты людей, больных шизофренией, от текстов здоровых людей? Основной признак, по которому сравниваются данные - semantic coherence (семантическая связность).

Семантическая связность определяется как средний коэффициент косинусной близости двух векторов слов, подсчитанный для определенных n-грамм. Например, в предложении "Снесла курочка яичко, да не простое, а золотое" коэффициент семантической связности для триграммы "Снесла курочка яичко" (окно размера 3) подсчитывается как средний коэффициент косинусной близости между векторами слов "снесла" и "курочка", "курочка" и "яичко". Каждый текст характеризуется последовательностью таких коэффициентов для всех n-грамм (в нашем примере выше мы использовали триграммы). Авторы выделяют несколько метрик, с помощью которых можно сравнивать тексты: минимальное и максимальное значения коэффициента семантической связности, среднее значение коэффициента, стандартное отклонение и др. Для вычисления косинусной близости между векторами слов в тексте авторы используют модель RusVectōrēs с идентификатором ruwikiruscorpora_upos_skipgram_300_2_2018.

Исследование показало, что между текстами людей, больных шизофренией, и текстами здоровых людей имеются существенные различия. Авторы добились точности от 0.72 до 0.88 при автоматическом опредлении принадлежности текста к той или иной группе данных. В то же время, анализ результатов для русского языка противоречит исследованиям, проведенным для английского языка. Например, минимальный коэффициент семантической связности оказывается ниже для текстов здоровых людей, в то время как в английском языке прослеживалась обратная тенденция.

В целом, нам кажется, что это интересное исследование демонстрирует, как разнообразны сферы NLP, в которых применимы модели векторной семантики. Успехов авторам, а мы надеемся прочесть ещё множество замечательных статей, где в качестве инструментов используются модели RusVectōrēs!

источник

19:05пожаловаться #9

M

Md sohaib in Natural Language Processing

https://www.skillshare.com/r/profile/Data-Science-Team/994028825

источник

20:20пожаловаться #10

A

Alex in Natural Language Processing

Доброго времени суток, уважаемые знатоки.
Прошу поддержать в поиске инструмента для выделения ключевых фраз.

Дано:
Тхт корпус текстов, заранее сгруппированные по тематике.
Задача:
Выявить ключевые фразы для целей SEO.

Как вы понимаете, фразы могут состоять как из одного слова, так из двух или трёх. Больше 3 слов во фразе не ожидается.

Помогите, пожалуйста, найти инструмент для автоматического прогнозирования наиболее вероятных ключевых фраз, основываясь на корпусе текстов. Каждый корпус состоит из сбора статей по теме в одном файле в текстовом виде, разделены через точку.

Заранее благодарю за помощь!

источник

20:30пожаловаться #11

AZ

Andrey Zakharov in Natural Language Processing

Доброго времени суток, уважаемые знатоки.
Прошу поддержать в поиске инструмента для выделения ключевых фраз.

Дано:
Тхт корпус текстов, заранее сгруппированные по тематике.
Задача:
Выявить ключевые фразы для целей SEO.

Как вы понимаете, фразы могут состоять как из одного слова, так из двух или трёх. Больше 3 слов во фразе не ожидается.

Помогите, пожалуйста, найти инструмент для автоматического прогнозирования наиболее вероятных ключевых фраз, основываясь на корпусе текстов. Каждый корпус состоит из сбора статей по теме в одном файле в текстовом виде, разделены через точку.

Заранее благодарю за помощь!

Можно попробовать тематическую модель на 1-2 граммах
Как второй подход, научить классификатор и вытащить из модели feature importance

источник

20:35пожаловаться #12

A

Alex in Natural Language Processing

Andrey Zakharov

Можно попробовать тематическую модель на 1-2 граммах
Как второй подход, научить классификатор и вытащить из модели feature importance

Андрей, какой питон библиотекой имеет смысл пробовать? Желательно чтобы русский язык был сразу "под капотом"

источник

20:36пожаловаться #13

AZ

Andrey Zakharov in Natural Language Processing

Андрей, какой питон библиотекой имеет смысл пробовать? Желательно чтобы русский язык был сразу "под капотом"

текстов много? какого размера?

источник

20:37пожаловаться #14

A

Alex in Natural Language Processing

Понимаю, что надо нормализовать в случае word2vec.. может есть проще вариант

источник

20:37пожаловаться #15

A

Alex in Natural Language Processing

Andrey Zakharov

текстов много? какого размера?

На каждую тематику примерно 10 000 знаков, но нет проблем собрать больше

источник

20:38пожаловаться #16

AZ

Andrey Zakharov in Natural Language Processing

бейслайн здесь - countvectorizer/tfidfvectorize + LDA , как мне кажется

источник

20:38пожаловаться #17

A

Alex in Natural Language Processing

Тематик до 10 штук в каждом случае

источник

20:38пожаловаться #18

A

Alex in Natural Language Processing

Andrey Zakharov

бейслайн здесь - countvectorizer/tfidfvectorize + LDA , как мне кажется

Благодарю, попробую

источник

20:39пожаловаться #19

ck

cnstntn kndrtv in Natural Language Processing

А если посчитать разницу частот слов в темах и во всем корпусе (или в другом, например новостном)?
Получится простой, интерпретируемый подход.

источник

21:04пожаловаться #20