Size: a a a

Natural Language Processing

2019 December 07

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
Да любая, кому-то нужно косинусное расстояние -- тем подойдёт w2v, кому-то нужна точность -- более глубокие нейросети, кому-то нормированная близость биграмм уже норм, кто-то нормированную точность только ключевых слов возьмёт
Да но какая конкретно из предобученных? Мне именно косинусный расстояние нужно.
источник

SP

Sebastian Pereira in Natural Language Processing
Куда смотреть?
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Да но какая конкретно из предобученных? Мне именно косинусный расстояние нужно.
ну fasttext возьми или word2vec предобученные, чем больший был датасет для модели, тем больше вероятность, что твой домен будет хорошо работать.
источник

SP

Sebastian Pereira in Natural Language Processing
Fasttext  для русского языка?
источник

NK

Nikolay Karelin in Natural Language Processing
Sebastian Pereira
Fasttext  для русского языка?
А в чем проблема?
источник
2019 December 08

D

Dmitry in Natural Language Processing
Sebastian Pereira
Fasttext  для русского языка?
Он для любого языка
источник

D

Dmitry in Natural Language Processing
Мы юзаем для классификации, нам достаточно
источник

SP

Sebastian Pereira in Natural Language Processing
А есть примеры использования русской модели для косинусного расстояния? Для английского языка с flair я нашёл массу, а как подступиться к русскому не очень понимаю.
источник

AK

Anton Kiselëv in Natural Language Processing
Sebastian Pereira
А есть примеры использования русской модели для косинусного расстояния? Для английского языка с flair я нашёл массу, а как подступиться к русскому не очень понимаю.
У deeppavlov нет?
источник

SP

Sebastian Pereira in Natural Language Processing
Anton Kiselëv
У deeppavlov нет?
Не вижу там примеров работы с параграфами текста на русском
источник

D(

David (ddale) Dale in Natural Language Processing
Sebastian Pereira
А есть примеры использования русской модели для косинусного расстояния? Для английского языка с flair я нашёл массу, а как подступиться к русскому не очень понимаю.
Можно гугловский multilingual universal sentence encoder взять, он ровно под косинусы обучался
источник
2019 December 09

V

V in Natural Language Processing
David (ddale) Dale
Можно гугловский multilingual universal sentence encoder взять, он ровно под косинусы обучался
есть ещё LASER от Facebook. охват по языкам у них больше.
источник

V

V in Natural Language Processing
никто не проводил сравнение качества этих двух моделей? беглый поиск в сети ничего не дал.
источник

V

V in Natural Language Processing
Sebastian Pereira
Не вижу там примеров работы с параграфами текста на русском
вообще самый простой и прямолинейный baseline - это просто (или не просто, например по методу smooth inverse frequency embeddings) усреднить векторы отдельных слов в предложении, и дальше с этими векторами работать так же, как с векторами отдельных слов. это просто реализуется на практике, работает очень быстро и даёт сравнительно неплохую точность. как уже было сказано выше, если нужна большая точность, то можно воспользоваться предложенными выше моделями и при необходимости дообучить их.
источник

OS

Oleg Serikov in Natural Language Processing
V
есть ещё LASER от Facebook. охват по языкам у них больше.
О, а есть какие-то обзорные статьи про лазер, с плюсами и минуса и и про разные языки?
источник

V

V in Natural Language Processing
Oleg Serikov
О, а есть какие-то обзорные статьи про лазер, с плюсами и минуса и и про разные языки?
есть несколько популярных статей, но там в основном речь идёт о использовании моделей, а не о бенчмарках. в статье от самого fb есть сравнение с другими SOTA моделями и несколько слов про точность для 14 языков по сравнению с английским.
https://engineering.fb.com/ai-research/laser-multilingual-sentence-embeddings/
на момент выпуска статьи LASER побил BERT во всех языках кроме английского и испанского (на XNLI).
источник

V

V in Natural Language Processing
а вот сравнения с более свежими моделями я не нашёл
источник

V

Viktor in Natural Language Processing
чет нигде не видел, чтобы лазер где-то риали заходил
источник

V

V in Natural Language Processing
Viktor
чет нигде не видел, чтобы лазер где-то риали заходил
по непонятной причине он непопулярен, по сравнению с гугловскими моделями. тот же BERT для получения векторов предложений куда ни попадя пихают.
источник

V

Vic in Natural Language Processing
Alfredo Diezo
Ребят, всем привет
Кто-нибудь имел дело с deeppavlov в оффлайне? Просто есть проблема с запуском его предобученной модели -- dp пытается сам скачать ее со своего оф сайта, а мне нужно ее просто перенести с другого компа и подцепить к нему
Пытался юзать диппавлов, но там инференс был 2 секунды, для продакшена долго. Но если не риалтайм то норм
источник