Телеграмм чат группы datasciencechat страница 6177

Не, ну типо музыканты, вроде все ок). Просто у меня similarity становится больше когда я снижаю длину ембединга при обучении. При длине 50 намного лучше чем при 200.

источник

12:47пожаловаться #4

Dmitry in Data Science Chat

Вот меня и интересует нормально ли это. Просто интуитивно кажется, что при большей длине должно больше информации хранится и сходство вроде как должно быть больше.

источник

12:48пожаловаться #5

Вадим in Data Science Chat

Как у тебя similarity определенно? Как модель задана ? Вероятность чего ты искал ?Тренировал ты как ? Максемизировал similarity ? Минимизировал ?

источник

12:56пожаловаться #6

Dmitry in Data Science Chat

тренировал так: model = Word2Vec(corpus, min_count=1, vector_size=50, sample=1e-3, workers=4, epochs=4). Это библиотека gensim

источник

12:57пожаловаться #7

Oleg Shapovalov in Data Science Chat

Я word2vec не учил, но предположу, что зависит от объема трейна - если будет больше, то и vector_size будет лучше больше

источник

13:18пожаловаться #8

Dmitry in Data Science Chat

Ну а вообще так себе идея на глаз оценивать качество обучения по similarity?

источник

13:19пожаловаться #9

Roman Nm in Data Science Chat

Да

источник

13:48пожаловаться #10

Roman Nm in Data Science Chat

Я когда-то для этого обучал модели с одинаковыми параметрами и разными сидами, и смотрел, насколько похожи будут 10 наиболее близких слов для заранее заданного сета эталонных слов.

источник

13:49пожаловаться #11

H in Data Science Chat

Big-Data-Landscape-2016-v18-FINAL.png

(2.57 Мб)

что скажете?)

источник

14:46пожаловаться #12

Somebody in Data Science Chat

Результат дурости людей

источник

14:50пожаловаться #13

Somebody in Data Science Chat

Почему вольфрам альфа в спиче и нлп?

источник

14:50пожаловаться #14

H in Data Science Chat

не знаю
ощущение что пытались внести всё что есть без особого разбора

источник

14:53пожаловаться #15

H in Data Science Chat

Как думаете, этого достаточно, чтобы самому без привязку к языку или среде научиться статистике:

Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для студентов вузов / В.Е. Гмурман. - 8-е изд., стер. - М.: Высшая школа, 2002. - 479 с.: ил.; 21 см. - Предм. указ.: с. 474-475. - ISBN 5-06-004214-6.

Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для вузов / В.Е. Гмурман. - 6-е изд., доп. - М.: Высшая школа, 2002. - 405 с.: ил.; 21 см. - ISBN 5-06-004212-X.

источник

15:31пожаловаться #16

Somebody in Data Science Chat

К какому языку?

источник

15:33пожаловаться #17

H in Data Science Chat

R/Python/Excel/любому

источник

15:33пожаловаться #18

Somebody in Data Science Chat

...

источник

15:33пожаловаться #19

Somebody in Data Science Chat

Не нужен там язык

источник

15:33пожаловаться #20