Телеграмм чат группы natural_language

Привет всем. Какой sentence embedder для русского языка лучше использовать, чтобы потом искать близкие предложения? (e.g. universal-sentence-encoder, InferSent, bert etc.) Что является SOTA?

источник

17:12пожаловаться #12

RB

Radion Bikmukhamedov in Natural Language Processing

sentence-bert можно посмотреть еще

источник

17:13пожаловаться #13

АН

Александр Нагаев... in Natural Language Processing

возьми просто ft или elmo по каждому токену и усредни

источник

17:56пожаловаться #14

SP

Sebastian Pereira in Natural Language Processing

Михаил

Привет всем. Какой sentence embedder для русского языка лучше использовать, чтобы потом искать близкие предложения? (e.g. universal-sentence-encoder, InferSent, bert etc.) Что является SOTA?

Для русского все сложно. По идее SOTA это rubert от deep Pavlov но в Продакшн эта SOTA не умеет. Есть вариант который предложили выше Elmo от rusvectores

источник

18:00пожаловаться #15

D(

David (ddale) Dale in Natural Language Processing

Михаил

Привет всем. Какой sentence embedder для русского языка лучше использовать, чтобы потом искать близкие предложения? (e.g. universal-sentence-encoder, InferSent, bert etc.) Что является SOTA?

Если нужно именно sentence level, то у меня мультиязычные Laser и USE давали результат лучше, чем русскоязычный BERT

источник

18:10пожаловаться #16

CT

Cookie Thief in Natural Language Processing

плюсую за мультиязычный use

источник

18:12пожаловаться #17

э

эдуард in Natural Language Processing

Михаил

Привет всем. Какой sentence embedder для русского языка лучше использовать, чтобы потом искать близкие предложения? (e.g. universal-sentence-encoder, InferSent, bert etc.) Что является SOTA?

мне вот эти нравятся

https://tfhub.dev/google/universal-sentence-encoder-multilingual/3
https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3
https://tfhub.dev/google/universal-sentence-encoder-multilingual-qa/3

сравнивал на своих задачках с rubert-ами, плюс-минус то же самое, но сильно проще

источник

18:30пожаловаться #18

D

Dmitry in Natural Language Processing

Всем привет
Есть ли какие-нибудь способы для автоматического создания словарей из текста для дальнейшего его использования в том же Yargy или только вручную и готовые словари?

источник

19:19пожаловаться #19

М

Михаил in Natural Language Processing

@cointegrated, спасибо посмотрю Laser и USE. Они давали результаты лучше именно чем RuBERT или чем все BERT based модели (Sentence RuBERT, Sentence Multilingual BERT)? И было ли их сравнение с Elmo и для этой задачи?
А особенно меня интересует сравнение с universal-sentence-encoder-multilingual и InferSent (если есть его варианты для русского).

источник

19:35пожаловаться #20