ну вот в статье с хабра (ссылка выше) там вначале очень четко описан алгоритм.. вот само заглавие
Цитата
"Word2Vec — это технология от гугл, которая заточена на статистическую обработку больших массивов текстовой информации. W2V собирает статистику по совместному появлению слов в фразах, после чего методами нейронных сетей решает задачу снижения размерности и выдает на выходе компактные векторные представления слов, в максимальной степени отражающие отношения этих слов в обрабатываемых текстах. Советую почитать первоисточник, дабы не полагаться на мой путанный пересказ технологии."