Телеграмм чат группы natural_language

ну там вроде бы логично все расписано, что биграммы более четко отражают суть дела, например словосочетание "не писать" просто при использовании лемматизации будет разделено на два "не" и "писать", при использовании биграммы в таблице будет имаенно "не писать" и "не" не затеряется в мешке слов

источник

18:06пожаловаться #9

Yurii in Natural Language Processing

желтый снег не жрать

источник

18:08пожаловаться #10

Yurii in Natural Language Processing

"не писать" или "не писать"? вот в чем вопрос.

источник

18:09пожаловаться #11

MО

Miss Очепятка in Natural Language Processing

https://en.wikipedia.org/wiki/N-gram

Wikipedia

n-gram

contiguous sequence of n items from a given sample of text or speech

источник

18:14пожаловаться #12

MО

Miss Очепятка in Natural Language Processing

n-граммы это просто группы букв к примеру по 3 буквы

источник

18:14пожаловаться #13

MО

Miss Очепятка in Natural Language Processing

'не_''пис''ать'

источник

18:15пожаловаться #14

Cookie Thief in Natural Language Processing

Это могут быть и слова, не только буквы

источник

18:16пожаловаться #15

mel kaye in Natural Language Processing

noname

ну вот я и нагуглил что n-гаммой получается более точно, но как n-грамму сделать ненашел

for i, j in zip(tokens[:-1], tokens[1:]):
...

источник

18:44пожаловаться #16

mel kaye in Natural Language Processing

Биграма например

источник

18:44пожаловаться #17

Sebastian Pereira in Natural Language Processing

Коллеги, какая лингвистическая модель в итоге подходит для построения эмбеддингов нескольких предложений на русском языке?

источник

18:46пожаловаться #18

Sebastian Pereira in Natural Language Processing

Вроде того, что демонстрируется во flair?

источник

18:46пожаловаться #19

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Да любая, кому-то нужно косинусное расстояние -- тем подойдёт w2v, кому-то нужна точность -- более глубокие нейросети, кому-то нормированная близость биграмм уже норм, кто-то нормированную точность только ключевых слов возьмёт

источник

20:44пожаловаться #20