Size: a a a

Natural Language Processing

2020 March 09

VR

Vladimir R in Natural Language Processing
источник

ck

cnstntn kndrtv in Natural Language Processing
Vladimir R
SpaCy универсальный фреймворк, который позволяет тренировать сложные модели End-to-End пробрасывая вектора между каждым слоем. т.е. он берет на себя много работы по разработке пайплайна (чтобы не ломать голову как вместе с эмбедингом правильно передавать морфологию и лемму слова, зависимости слов одно от другого и т.д.)
Научите воткнуть в этот универсальный фреймворк модель синтаксического анализа от DeepPavlov
источник

ck

cnstntn kndrtv in Natural Language Processing
Что сейчас лучшее для синтаксического анализа? С простой интеграцией в Spacy. Deeppavlov хорош (по данным с их сайта))) но они глючные, миллион зависимостей, хотелось бы что-то попроще, на чистом TF например.
источник

VR

Vladimir R in Natural Language Processing
"С простой интеграцией в Spacy" - напиши, что конкретно ты хочешь получить в итоге?
источник

VR

Vladimir R in Natural Language Processing
spacy работает без TF, из зависимостей в основной cupy для поддержки видеокарт
источник

VR

Vladimir R in Natural Language Processing
но работает и без него, включая обучение
источник

VR

Vladimir R in Natural Language Processing
разница всего 2х
источник

ck

cnstntn kndrtv in Natural Language Processing
Vladimir R
"С простой интеграцией в Spacy" - напиши, что конкретно ты хочешь получить в итоге?
Хочу синтаксический анализ
источник

VR

Vladimir R in Natural Language Processing
что такое синтаксический анализ, в каком виде?
источник

ck

cnstntn kndrtv in Natural Language Processing
Vladimir R
что такое синтаксический анализ, в каком виде?
А что такое синтаксический анализ в Spacy? В каком он виде в Spacy?
источник

VR

Vladimir R in Natural Language Processing
задачу ты ставишь
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
А что такое синтаксический анализ в Spacy? В каком он виде в Spacy?
- в spacy можно ровно так же подключить bert (тот же rubert) и сделать синт. анализ с ним — там надо просто померить качество.
- можно сделать и без bert, чтобы была модель поменьше/работала побыстрее, но на несколько процентов хуже была.
источник

ck

cnstntn kndrtv in Natural Language Processing
Vladimir R
задачу ты ставишь
Пардон. Вот есть в Spacy dependency parser (вроде так называется). Хотелось вместо него вставить свою модель и получить результат в таком же формате, пригодном для дальнейшей работы в Spacy.
Есть например ru_spacy, есть проект (название не помню) по импорту моделей ud_pipe. А хотелось бы увидеть способ подставить любую модель, выдающую результат в близком к connll-u формате
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
- в spacy можно ровно так же подключить bert (тот же rubert) и сделать синт. анализ с ним — там надо просто померить качество.
- можно сделать и без bert, чтобы была модель поменьше/работала побыстрее, но на несколько процентов хуже была.
Нигде не встречали табличку с точностью и примерной скоростью инференса?
источник

VR

Vladimir R in Natural Language Processing
SpaCy работает таким образом что у тебя есть текст на входе, токенизатор (внешний или внутренний), морфология или вектора на входе, ULMFiT, а на выходе некая разметка (Golden) - и дальнейшая задача решается путем предоставления датасета и обучения по этому датасету

можно так же использовать трансформер и делать Fine-Tune, при этом есть поддержка Xlnet, Bert и так далее
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Нигде не встречали табличку с точностью и примерной скоростью инференса?
для русского надо считать, а для английского где-то должна быть. скорость должна быть примерно одинаковая для всех реализаций берта, потому что оно примерно одинаково считается.
источник

ck

cnstntn kndrtv in Natural Language Processing
Vladimir R
SpaCy работает таким образом что у тебя есть текст на входе, токенизатор (внешний или внутренний), морфология или вектора на входе, ULMFiT, а на выходе некая разметка (Golden) - и дальнейшая задача решается путем предоставления датасета и обучения по этому датасету

можно так же использовать трансформер и делать Fine-Tune, при этом есть поддержка Xlnet, Bert и так далее
Может быть есть пример? Как прикрутить модель на Bert?
источник

VR

Vladimir R in Natural Language Processing
google: spacy + transformer
источник

VR

Vladimir R in Natural Language Processing
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
для русского надо считать, а для английского где-то должна быть. скорость должна быть примерно одинаковая для всех реализаций берта, потому что оно примерно одинаково считается.
Не планируете?
источник