Size: a a a

Natural Language Processing

2019 December 09

T

Timur in Natural Language Processing
в элмо тоже char-level по сути, но они там свёртками проходятся по эмбеддингам символом из из этого строят эмбеддинги слов
источник

A

Arthur in Natural Language Processing
Они используют CharLM для получения эмбеддингов слов.
источник

T

Timur in Natural Language Processing
не думаю, что это то, что нужно, но посмотреть как работает было бы как минимум полезно
источник

V

V in Natural Language Processing
Viktor
а вы юзали лазер для своих каких-то задач?
на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.
источник

V

Vlad in Natural Language Processing
V
на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.
Интересные результаты. LASER с русским языком из коробки работает как я понимаю?
источник

V

V in Natural Language Processing
Vlad
Интересные результаты. LASER с русским языком из коробки работает как я понимаю?
да, предобученная модель работает с русским, и в навеску ещё с 92 другими языками (по-моему самая мультиязычная модель из имеющихся в открытом доступе; UPD: ошибся, BERT может в 104 языка, но он не заточен на извлечение векторов документов по умолчанию).
источник

V

Vlad in Natural Language Processing
Выглядит очень заманчиво)
Странно, что он так непопулярен
источник

KK

Krep Kospit in Natural Language Processing
Nikolay Karelin
Звисит от конкретной задачи. NLTK, pymorphy2, после них Gensim, bigARTM, еще есть модели под русский язык в spacy, BERT, FastText.
"Обрабока языка" - это почти как "обработка данных" - выражение слишком общее, чтобы что-то рекомендовать.
Хочу сделать свой "велосипед" с генерацией стихов, чтобы они включали заранее заданные слова.
источник

V

V in Natural Language Processing
Vlad
Выглядит очень заманчиво)
Странно, что он так непопулярен
может быть в процессе работы с моделью всплывут подводные камни какие-то, посмотрим. но вообще создаётся впечатление, что Facebook просто меньше пиарит свои модели. около-ml СМИ развели шумиху вокруг BERT и GPT-2, BERT начали пихать в задачи по извлечению векторов документов (хотя авторы модели пишут, что это не совсем правильно), в то время как, возможно, более подходящие для этих целей модели остались в тени.
источник

V

Vlad in Natural Language Processing
А в каких вообще задачах можно BERT использовать?
Я так понимаю, LASER это подобие word2vec/fasttext, т.е. языковая модель, которая переводит слова в вектора
источник

V

Vlad in Natural Language Processing
А дальше уже можно накрутить хоть классификацию, хоть поиск похожих слов, или ещё что захочется
источник

D(

David (ddale) Dale in Natural Language Processing
Vlad
А в каких вообще задачах можно BERT использовать?
Я так понимаю, LASER это подобие word2vec/fasttext, т.е. языковая модель, которая переводит слова в вектора
Нет, LASER и USE как раз переводят целые предложения в векторы. А word2vec, fasttext, bert и elmo - только отдельные слова. При этом bert и elmo круче, чем word2vec и fasttext, потому что умеют учитывать контекст слова.
источник

V

V in Natural Language Processing
V
может быть в процессе работы с моделью всплывут подводные камни какие-то, посмотрим. но вообще создаётся впечатление, что Facebook просто меньше пиарит свои модели. около-ml СМИ развели шумиху вокруг BERT и GPT-2, BERT начали пихать в задачи по извлечению векторов документов (хотя авторы модели пишут, что это не совсем правильно), в то время как, возможно, более подходящие для этих целей модели остались в тени.
возможно, это уже чисто субъективный взгляд, но ещё мне не нравится, в каком виде Facebook обычно выпускает свои модели. их сложно гармонично вписать в около-production pipeline. может, это отталкивает ещё кого-то.
источник

V

Viktor in Natural Language Processing
V
на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.
>быстрее чем BERT
с каким именно?
источник

V

V in Natural Language Processing
Vlad
А в каких вообще задачах можно BERT использовать?
Я так понимаю, LASER это подобие word2vec/fasttext, т.е. языковая модель, которая переводит слова в вектора
BERT изначально предполагалось дообучать на задачах классификации, как я понимаю. дообученный BERT также можно использовать для получения векторов документов.
источник

V

Viktor in Natural Language Processing
интересно еще посмотреть на фб-шный роберта по сравнению с лазер, который вышел позже вроде ж
источник

D(

David (ddale) Dale in Natural Language Processing
V
на данный момент тестирую эту модель в pet-проекте (создаю мультимодальные векторные представления для изображений и текста с целью последующей zero-shot визуализации данных). работает лучше, чем мультиязычный fasttext и быстрее чем BERT (который к тому же ещё и довольно прожорлив в плане ресурсов). думаю, в процессе проведу таки сравнение с Multilingual-USE на том же XNLI, или на тестовых наборах данных, которые предлагает сам fb.

один энтузиаст создал очень удобный пакет для быстрого развёртывания лазера, laserembeddings в PyPI. если нужна только предобученная модель, то можно воспользоваться этим пакетом, очень удобно (по сравнению с вознёй с Docker, которую предлагают в официальном репозитории проекта). есть и неприятные мелочи, например лучше заранее знать язык параграфа, для которого нужно получить векторное представление (либо определять язык на лету отдельной моделью), так как LASER по-разному токенизирует разные языки, и модели нужно явно указывать, какой токенизатор применить для каждого документа.
Хм, я сейчас медленно ползу к созданию своего компактного USE чисто для русского. Можно было бы объединить усилия)
источник

V

V in Natural Language Processing
Viktor
>быстрее чем BERT
с каким именно?
BERT-Base, Multilingual Cased (через bert-as-a-service). гонял на CPU, так требует постановка задачи (хочу иметь возможность развёртывать проект в среде без GPU).
источник

V

Viktor in Natural Language Processing
кстати, какой претрейн лучше юзать для русского: use или xlm?
или мб есть что-то лучше?
источник

V

V in Natural Language Processing
David (ddale) Dale
Хм, я сейчас медленно ползу к созданию своего компактного USE чисто для русского. Можно было бы объединить усилия)
кажется, проекты всё-таки разные. я использую предобученную мультиязычную модель для получения векторных представлений текстов, и предобученную же модель для получения векторов изображений, отдельной моделью выполняю совмещение векторных пространств изображений и текста, получая при этом мультимодальные векторные представления. в дальнейшем эти векторы использую для визуализации.
источник