Size: a a a

Natural Language Processing

2019 December 16

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
А если посчитать разницу частот слов в темах и во всем корпусе (или в другом, например новостном)?
Получится простой, интерпретируемый подход.
И называется он наивный байес.
источник

YB

Yuri Baburov in Natural Language Processing
Есть реализации из коробки в том же sklearn
источник

D(

David (ddale) Dale in Natural Language Processing
Всем привет!
Я возвращаюсь ещё раз к fasttext'у, ибо испытываю некоторое непонимание.

Судя по коду в gensim, при конвертации или обучении фасттекста  для слов, которые входят в словарь, производится операция adjust_vectors. Для каждого слова усредняется его личный вектор и все векторы n-грам, и это кладётся в табличку vocab, откуда при применении вектор просто достаётся без изменений.

Я взял для примера модель с rusvectores araneum_none_fasttextskipgram_300_5_2018, и вижу в ней некоторые противоречия.  А именно, я ожидаю, что в ней уже проведена операция adjust_vectors, и векторы в vocab вычислены в точности как я описал выше. Но вместо этого в vocab находится что-то совсем другое! Вот как воспроизвести: https://pastebin.com/W2zJ32Gy

А теперь у меня вопрос: что происходит? Какую чёрную магию проделали с фасттекстами на rusvectores, и нужно ли мне эту магию воспроизводить?

Может быть, в этом чате есть авторы rusvectores или кто-то, кто знает, что там происходило?)
источник

DK

Denis Kirjanov in Natural Language Processing
David (ddale) Dale
Всем привет!
Я возвращаюсь ещё раз к fasttext'у, ибо испытываю некоторое непонимание.

Судя по коду в gensim, при конвертации или обучении фасттекста  для слов, которые входят в словарь, производится операция adjust_vectors. Для каждого слова усредняется его личный вектор и все векторы n-грам, и это кладётся в табличку vocab, откуда при применении вектор просто достаётся без изменений.

Я взял для примера модель с rusvectores araneum_none_fasttextskipgram_300_5_2018, и вижу в ней некоторые противоречия.  А именно, я ожидаю, что в ней уже проведена операция adjust_vectors, и векторы в vocab вычислены в точности как я описал выше. Но вместо этого в vocab находится что-то совсем другое! Вот как воспроизвести: https://pastebin.com/W2zJ32Gy

А теперь у меня вопрос: что происходит? Какую чёрную магию проделали с фасттекстами на rusvectores, и нужно ли мне эту магию воспроизводить?

Может быть, в этом чате есть авторы rusvectores или кто-то, кто знает, что там происходило?)
Переслал автору русвекторес
источник

D(

David (ddale) Dale in Natural Language Processing
Denis Kirjanov
Переслал автору русвекторес
Благодарю!
источник

АК

Андрей Ключаревский in Natural Language Processing
Ребят, как сделать нормальную генерацию маленьких текстов через gpt2, обученный на малом количестве размеченного текста(15стр), не получая overfit? Я уже комбинаторно менял почти все параметры, но все одно и тоже на выходе. Пробовал все что на скрине
источник

АК

Андрей Ключаревский in Natural Language Processing
источник

КЧ

Квадрат Чёрный in Natural Language Processing
cnstntn kndrtv
А если посчитать разницу частот слов в темах и во всем корпусе (или в другом, например новостном)?
Получится простой, интерпретируемый подход.
Следующий уровень - смотреть распределение совокупных частот слов + биграм...:)
источник
2019 December 17

V

Viktor in Natural Language Processing
теперь можно шарить и качать кастомные модельки
https://twitter.com/huggingface/status/1206638627251539969
источник

VR

Vladimir R in Natural Language Processing
Добрый день. А в группе есть лингвисты? Те, кто хорошо разбирается в русском языке.
источник

VR

Vladimir R in Natural Language Processing
Есть интересная задача, мы с коллегами трудимся над пониманием и извлечением информации
источник

VR

Vladimir R in Natural Language Processing
источник

PM

Pavel Makhnev in Natural Language Processing
Vladimir R
Добрый день. А в группе есть лингвисты? Те, кто хорошо разбирается в русском языке.
а вы для себя или апишку пилите для всех?
источник

ck

cnstntn kndrtv in Natural Language Processing
Это дерево из какого-то синтаксического UD анализатора.
А вы чем его визуализировали?
источник

VR

Vladimir R in Natural Language Processing
Pavel Makhnev
а вы для себя или апишку пилите для всех?
это OpenSource
источник

m

mel kaye in Natural Language Processing
ксти про ud, что сейчас есть хорошого для ру/англ языков?
источник

VR

Vladimir R in Natural Language Processing
cnstntn kndrtv
Это дерево из какого-то синтаксического UD анализатора.
А вы чем его визуализировали?
explacy
источник

m

mel kaye in Natural Language Processing
я пробовал это, но компьютеры себя не оправдали
источник

VR

Vladimir R in Natural Language Processing
это какие-то крайние примеры )
источник

Y

Yurii in Natural Language Processing
mel kaye
я пробовал это, но компьютеры себя не оправдали
А если lg модель или так же?
источник