Size: a a a

Natural Language Processing

2021 November 14

BZ

Below Zero in Natural Language Processing
Похоже на то что нужно, спасибо!
источник

В

Виталий in Natural Language Processing
источник

Д

Данил in Natural Language Processing
Привет! Про трансформеры.
Вопрос такой, мне нужно скрытое состояние моего корпуса (то есть эмбеддинги), чтобы потом их подавать как фичи в модели второго уровня (классификаторы например), есть много данных, надо обучать на своём корпусе, соответственно мне нужно скрытое состояние, полученное с помощью encoder, decoder по идее не нужен, но чтобы обучить это скрытое состояние, полученное через encoder, мне нужно обучать весь трансформер (вместе с decoder), правильно?
источник

IG

Ilya Gusev in Natural Language Processing
Привет, неправильно. Есть большой класс моделей, которые состоит только из энкодера, декодера у них вообще нет. К таким моделям относятся например все BERT-like модели.
Для BART/T5 нужно предобучать весь seq2seq, да.
источник

Д

Данил in Natural Language Processing
То есть по факту я могу реализовать только encoder трансформера и обучать его, чтобы получить эмбеддинги, так?
источник

IG

Ilya Gusev in Natural Language Processing
да, на MLM/NSP/любую конкретную задачу можно обучать только энкодер
источник

Д

Данил in Natural Language Processing
Спасибо!
источник
2021 November 15

A

Alexander in Natural Language Processing
Я думал, что пропорцию нужно выбирать аналогично данным при эксплуатации модели 👀
источник

PG

Prohor Gladkikh in Natural Language Processing
Это дефолтный подход, да. Но если данные разрежены по сущностям, модель рискует вообще не обучиться.
источник

A

Alexander in Natural Language Processing
Спасибо)
источник

EL

Evgeniy Lashchenov in Natural Language Processing
Всем привет! Суть задачи – распознавание текста в трудовых книжках. Насколько это вообще реально осуществить(разметка скажем около 1000 документов)?
Может кто-то уже работал над похожими задачами? У кого-то получалось что-то годное родить?
источник

PG

Prohor Gladkikh in Natural Language Processing
нз 😉
источник

A

Andrey in Natural Language Processing
а разметка чего именно? smartengine может проще купить как вариант...

ну или на синтетике учите пайплайн детекция буквы -> ее распознавание -> словарь.

со вторым не такая проблема, как с первым конечно.
источник

EL

Evgeniy Lashchenov in Natural Language Processing
разметка: сканы трудовой, где отмечено где находится текст и что там написано
источник

EL

Evgeniy Lashchenov in Natural Language Processing
Пока обсуждается вообще экономическая эффективность такого решения, есть ли смысл разрабатывать
источник

A

Andrey in Natural Language Processing
хотя smart engines вряд ли для рукопашного текста сойдёт.

посмотрите тогда mmocr. там немало. но можно учить свои.
источник

EL

Evgeniy Lashchenov in Natural Language Processing
покопаю в эту сторону, спасибо
источник

EL

Evgeniy Lashchenov in Natural Language Processing
побуквенная разметка лучше чем по словам?
источник

EL

Evgeniy Lashchenov in Natural Language Processing
для определения рукописного текста на картинке
источник

A

Andrey in Natural Language Processing
вам без синтетики своей не затащить думаю на 1000 примеров.

побуквенная хуже чем по словам (проще хотя), но многое будет упираться в точность детекции именно слов.

пути два - либо буквы и потом исправлять ошибки, либо слова - и потом исправлять ошибки.

в случае с трудовыми я бы начал бы с букв. кадровики не врачи
источник