Телеграмм чат группы natural_language

на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.

источник

17:23пожаловаться #4

V

Vlad in Natural Language Processing

V

на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.

Интересные результаты. LASER с русским языком из коробки работает как я понимаю?

источник

17:24пожаловаться #5

V

V in Natural Language Processing

Vlad

Интересные результаты. LASER с русским языком из коробки работает как я понимаю?

да, предобученная модель работает с русским, и в навеску ещё с 92 другими языками (по-моему самая мультиязычная модель из имеющихся в открытом доступе; UPD: ошибся, BERT может в 104 языка, но он не заточен на извлечение векторов документов по умолчанию).

источник

17:27пожаловаться #6

V

Vlad in Natural Language Processing

Выглядит очень заманчиво)
Странно, что он так непопулярен

источник

17:28пожаловаться #7

KK

Krep Kospit in Natural Language Processing

Nikolay Karelin

Звисит от конкретной задачи. NLTK, pymorphy2, после них Gensim, bigARTM, еще есть модели под русский язык в spacy, BERT, FastText.
"Обрабока языка" - это почти как "обработка данных" - выражение слишком общее, чтобы что-то рекомендовать.

Хочу сделать свой "велосипед" с генерацией стихов, чтобы они включали заранее заданные слова.

источник

17:34пожаловаться #8

V

V in Natural Language Processing

Vlad

Выглядит очень заманчиво)
Странно, что он так непопулярен

может быть в процессе работы с моделью всплывут подводные камни какие-то, посмотрим. но вообще создаётся впечатление, что Facebook просто меньше пиарит свои модели. около-ml СМИ развели шумиху вокруг BERT и GPT-2, BERT начали пихать в задачи по извлечению векторов документов (хотя авторы модели пишут, что это не совсем правильно), в то время как, возможно, более подходящие для этих целей модели остались в тени.

источник

17:34пожаловаться #9

V

Vlad in Natural Language Processing

А в каких вообще задачах можно BERT использовать?
Я так понимаю, LASER это подобие word2vec/fasttext, т.е. языковая модель, которая переводит слова в вектора

источник

17:36пожаловаться #10

V

Vlad in Natural Language Processing

А дальше уже можно накрутить хоть классификацию, хоть поиск похожих слов, или ещё что захочется

источник

17:36пожаловаться #11

D(

David (ddale) Dale in Natural Language Processing

Vlad

А в каких вообще задачах можно BERT использовать?
Я так понимаю, LASER это подобие word2vec/fasttext, т.е. языковая модель, которая переводит слова в вектора

Нет, LASER и USE как раз переводят целые предложения в векторы. А word2vec, fasttext, bert и elmo - только отдельные слова. При этом bert и elmo круче, чем word2vec и fasttext, потому что умеют учитывать контекст слова.

источник

17:37пожаловаться #12

V

V in Natural Language Processing

V

может быть в процессе работы с моделью всплывут подводные камни какие-то, посмотрим. но вообще создаётся впечатление, что Facebook просто меньше пиарит свои модели. около-ml СМИ развели шумиху вокруг BERT и GPT-2, BERT начали пихать в задачи по извлечению векторов документов (хотя авторы модели пишут, что это не совсем правильно), в то время как, возможно, более подходящие для этих целей модели остались в тени.

возможно, это уже чисто субъективный взгляд, но ещё мне не нравится, в каком виде Facebook обычно выпускает свои модели. их сложно гармонично вписать в около-production pipeline. может, это отталкивает ещё кого-то.

источник

17:37пожаловаться #13

V

Viktor in Natural Language Processing

V

на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.

>быстрее чем BERT
с каким именно?

источник

17:38пожаловаться #14

V

V in Natural Language Processing

Vlad

А в каких вообще задачах можно BERT использовать?
Я так понимаю, LASER это подобие word2vec/fasttext, т.е. языковая модель, которая переводит слова в вектора

BERT изначально предполагалось дообучать на задачах классификации, как я понимаю. дообученный BERT также можно использовать для получения векторов документов.

источник

17:39пожаловаться #15

V

Viktor in Natural Language Processing

интересно еще посмотреть на фб-шный роберта по сравнению с лазер, который вышел позже вроде ж

источник

17:39пожаловаться #16

D(

David (ddale) Dale in Natural Language Processing

V

на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.

Хм, я сейчас медленно ползу к созданию своего компактного USE чисто для русского. Можно было бы объединить усилия)

источник

17:39пожаловаться #17

V

V in Natural Language Processing

Viktor

>быстрее чем BERT
с каким именно?

BERT-Base, Multilingual Cased (через bert-as-a-service). гонял на CPU, так требует постановка задачи (хочу иметь возможность развёртывать проект в среде без GPU).

источник

17:40пожаловаться #18

V

Viktor in Natural Language Processing

кстати, какой претрейн лучше юзать для русского: use или xlm?
или мб есть что-то лучше?

источник

17:43пожаловаться #19

V

V in Natural Language Processing

David (ddale) Dale

Хм, я сейчас медленно ползу к созданию своего компактного USE чисто для русского. Можно было бы объединить усилия)

кажется, проекты всё-таки разные. я использую предобученную мультиязычную модель для получения векторных представлений текстов, и предобученную же модель для получения векторов изображений, отдельной моделью выполняю совмещение векторных пространств изображений и текста, получая при этом мультимодальные векторные представления. в дальнейшем эти векторы использую для визуализации.

источник

17:46пожаловаться #20