Size: a a a

Data Science Chat

2021 May 04

S

Somebody in Data Science Chat
Чтобы потом кернелы в кэггл выкладывать, чтобы никто не понимал *демонический нарастающий смех*
источник

D

Dmitry in Data Science Chat
Модель word2vec. Я же правильно понимаю, что чем больше значение similarity в данном конкретном случае, то тем более хорошо обучены ембединги?
источник

OS

Oleg Shapovalov in Data Science Chat
тимати 0.85 🙊
источник

D

Dmitry in Data Science Chat
Не, ну типо музыканты, вроде все ок). Просто у меня similarity становится больше когда я снижаю длину ембединга при обучении. При длине 50 намного лучше чем при 200.
источник

D

Dmitry in Data Science Chat
Вот меня и интересует нормально ли это. Просто интуитивно кажется, что при большей длине должно больше информации хранится и сходство вроде как должно быть больше.
источник

В

Вадим in Data Science Chat
Как у тебя similarity определенно? Как модель задана ? Вероятность чего ты искал ?Тренировал ты как ? Максемизировал similarity ? Минимизировал ?
источник

D

Dmitry in Data Science Chat
тренировал так: model = Word2Vec(corpus, min_count=1, vector_size=50, sample=1e-3, workers=4, epochs=4).  Это библиотека gensim
источник

OS

Oleg Shapovalov in Data Science Chat
Я word2vec не учил, но предположу, что зависит от объема трейна - если будет больше, то и vector_size будет лучше больше
источник

D

Dmitry in Data Science Chat
Ну а вообще так себе идея на глаз оценивать качество обучения по similarity?
источник

RN

Roman Nm in Data Science Chat
Да
источник

RN

Roman Nm in Data Science Chat
Я когда-то для этого обучал модели с одинаковыми параметрами и разными сидами, и смотрел, насколько похожи будут 10 наиболее близких слов для заранее заданного сета эталонных слов.
источник

H

H in Data Science Chat
что скажете?)
источник

S

Somebody in Data Science Chat
Результат дурости людей
источник

S

Somebody in Data Science Chat
Почему вольфрам альфа в спиче и нлп?
источник

H

H in Data Science Chat
не знаю
ощущение что пытались внести всё что есть без особого разбора
источник

H

H in Data Science Chat
Как думаете, этого достаточно, чтобы самому без привязку к языку или среде научиться статистике:

Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для студентов вузов / В.Е. Гмурман. - 8-е изд., стер. - М.: Высшая школа, 2002. - 479 с.: ил.; 21 см. - Предм. указ.: с. 474-475. - ISBN 5-06-004214-6.


Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для вузов / В.Е. Гмурман. - 6-е изд., доп. - М.: Высшая школа, 2002. - 405 с.: ил.; 21 см. - ISBN 5-06-004212-X.
источник

S

Somebody in Data Science Chat
К какому языку?
источник

H

H in Data Science Chat
R/Python/Excel/любому
источник

S

Somebody in Data Science Chat
...
источник

S

Somebody in Data Science Chat
Не нужен там язык
источник