Size: a a a

Natural Language Processing

2020 February 23

IM

Ivan Menshikh in Natural Language Processing
Nikita O
Еще буду рад если разъясните мне один момент про negative sampling и иерархический софтмакс. Как я понял negative sampling точно используется и в изначальной сишной реализации и в gensim. А иерархический софтмакс и там, и там используется?
и там и там, просто параметризуешь модель нужным режимом
источник

NO

Nikita O in Natural Language Processing
источник

NO

Nikita O in Natural Language Processing
Ivan Menshikh
и там и там, просто параметризуешь модель нужным режимом
Что значит параметризуешь режимом? Это можно как-то настраивать в параметрах перед обучением?
источник

IM

Ivan Menshikh in Natural Language Processing
Nikita O
Что значит параметризуешь режимом? Это можно как-то настраивать в параметрах перед обучением?
да, перед обучением ты указываешь, что ты хочешь использовать (негатив семплинг или софтмакс)
источник

NO

Nikita O in Natural Language Processing
А так это выбор строго или одно или другое? Оба нельзя?
источник

IM

Ivan Menshikh in Natural Language Processing
https://radimrehurek.com/gensim/models/word2vec.html параметр hs. Строго одно или другое, тут оба и не нужны, они же взаимоисключающие
источник

NO

Nikita O in Natural Language Processing
Спасибо, понял.
источник

NO

Nikita O in Natural Language Processing
Значит в изначальном сишном коде иерархического софтмакса не было или там оба способа были реализованы?
источник

IM

Ivan Menshikh in Natural Language Processing
Nikita O
Значит в изначальном сишном коде иерархического софтмакса не было или там оба способа были реализованы?
нет, ещё раз, оба способа есть в обоих реализациях
источник

IM

Ivan Menshikh in Natural Language Processing
https://github.com/tmikolov/word2vec/blob/master/word2vec.c#L700 - ровно такая же ручка в оригинальном w2v
источник

NO

Nikita O in Natural Language Processing
Понятно. Просто у Миколова есть две (?) изначальных статьи по v2w, вышедшие с разницей в месяц и я пытаюсь понять какое они имеют отношение одна к другой и к сишной реализации и к gensim. https://arxiv.org/pdf/1301.3781.pdf https://arxiv.org/pdf/1310.4546.pdf
источник

IM

Ivan Menshikh in Natural Language Processing
Nikita O
Понятно. Просто у Миколова есть две (?) изначальных статьи по v2w, вышедшие с разницей в месяц и я пытаюсь понять какое они имеют отношение одна к другой и к сишной реализации и к gensim. https://arxiv.org/pdf/1301.3781.pdf https://arxiv.org/pdf/1310.4546.pdf
всё, что есть в этих статьях, реализовано как в миколовском варианте, так и в gensim
источник

NO

Nikita O in Natural Language Processing
Как в фасттексте используются подслова? Скиньте ссылочку на статью или видос где это подробно объясняется.
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Как в фасттексте используются подслова? Скиньте ссылочку на статью или видос где это подробно объясняется.
примерно так:
r = emb[w]
n = 1
for s in subwords(w):
   r += emb[s]
   n += 1
return r / n
источник

NO

Nikita O in Natural Language Processing
emb is undefined
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
emb is undefined
emb — матрица эмбеддингов.
источник

NO

Nikita O in Natural Language Processing
Если серьезно, то меня интересует более подродное объяснение. Например как это все обучается, как берутся подслова и т.д.
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Если серьезно, то меня интересует более подродное объяснение. Например как это все обучается, как берутся подслова и т.д.
ну, погугли, материалов много есть по каждому твоему конкретному вопросу
источник
2020 February 24

NO

Nikita O in Natural Language Processing
Это круто, что по моему вопросу уже есть ответ в интернете. Ты же хорошо в НЛП разбираешься, так может подскажешь мне конкретную ссылке, а то что-то нагуглить не получается.
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Это круто, что по моему вопросу уже есть ответ в интернете. Ты же хорошо в НЛП разбираешься, так может подскажешь мне конкретную ссылке, а то что-то нагуглить не получается.
"subwords fasttext", третья сссылка: https://stackoverflow.com/a/49827568/217895
источник