Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 14

Below Zero in Natural Language Processing

Похоже на то что нужно, спасибо!

источник

17:54пожаловаться #1

Виталий in Natural Language Processing

https://youtu.be/E368VXkgiWk

YouTube

Реален ли Брюс Уиллис в рекламе мегафон?

Как делали рекламу мегафон с Брюс Уиллисом и Азаматом Мусагалиевым? Был ли Брюс Уиллис настоящим? Может это дипфейк?

Вот примеры оригинальных рекламных роликов:
https://www.youtube.com/watch?v=pA6b3WwUMG0&ab_channel=AllReklama
https://www.youtube.com/watch?v=YI_kf5GcHTA&ab_channel=%D0%A0%D0%B5%D0%BA%D0%BB%D0%B0%D0%BC%D0%B0%D0%BD%D0%B0TV
https://www.youtube.com/watch?v=AH-TkREkfws&ab_channel=%D0%A0%D0%B5%D0%BA%D0%BB%D0%B0%D0%BC%D0%B0%D0%BD%D0%B0TV

0:00 реклама
0:26 анализ дипфейка
1:16 подбор актера. Соловьев
1:45 как создавали датасет
2:21 дипфейк и авторское право
2:55 как самому сделать дипфейк?

#deepfake #МегафонБрюс #дипфейк

источник

21:30пожаловаться #2

Данил in Natural Language Processing

Привет! Про трансформеры.
Вопрос такой, мне нужно скрытое состояние моего корпуса (то есть эмбеддинги), чтобы потом их подавать как фичи в модели второго уровня (классификаторы например), есть много данных, надо обучать на своём корпусе, соответственно мне нужно скрытое состояние, полученное с помощью encoder, decoder по идее не нужен, но чтобы обучить это скрытое состояние, полученное через encoder, мне нужно обучать весь трансформер (вместе с decoder), правильно?

источник

22:52пожаловаться #3

Ilya Gusev in Natural Language Processing

Привет, неправильно. Есть большой класс моделей, которые состоит только из энкодера, декодера у них вообще нет. К таким моделям относятся например все BERT-like модели.
Для BART/T5 нужно предобучать весь seq2seq, да.

источник

22:57пожаловаться #4

Данил in Natural Language Processing

То есть по факту я могу реализовать только encoder трансформера и обучать его, чтобы получить эмбеддинги, так?

источник

22:59пожаловаться #5

Ilya Gusev in Natural Language Processing

да, на MLM/NSP/любую конкретную задачу можно обучать только энкодер

источник

22:59пожаловаться #6

Данил in Natural Language Processing

Спасибо!

источник

23:00пожаловаться #7

2021 November 15

Alexander in Natural Language Processing

Я думал, что пропорцию нужно выбирать аналогично данным при эксплуатации модели 👀

источник

10:25пожаловаться #8

Prohor Gladkikh in Natural Language Processing

Это дефолтный подход, да. Но если данные разрежены по сущностям, модель рискует вообще не обучиться.

источник

10:28пожаловаться #9

Alexander in Natural Language Processing

Спасибо)

источник

10:32пожаловаться #10

Evgeniy Lashchenov in Natural Language Processing

Всем привет! Суть задачи – распознавание текста в трудовых книжках. Насколько это вообще реально осуществить(разметка скажем около 1000 документов)?
Может кто-то уже работал над похожими задачами? У кого-то получалось что-то годное родить?

источник

16:35пожаловаться #11

Prohor Gladkikh in Natural Language Processing

нз 😉

источник

16:43пожаловаться #12

Andrey in Natural Language Processing

а разметка чего именно? smartengine может проще купить как вариант...

ну или на синтетике учите пайплайн детекция буквы -> ее распознавание -> словарь.

со вторым не такая проблема, как с первым конечно.

источник

16:44пожаловаться #13

Evgeniy Lashchenov in Natural Language Processing

разметка: сканы трудовой, где отмечено где находится текст и что там написано

источник

16:45пожаловаться #14

Evgeniy Lashchenov in Natural Language Processing

Пока обсуждается вообще экономическая эффективность такого решения, есть ли смысл разрабатывать

источник

16:46пожаловаться #15

Andrey in Natural Language Processing

хотя smart engines вряд ли для рукопашного текста сойдёт.

посмотрите тогда mmocr. там немало. но можно учить свои.

источник

16:46пожаловаться #16

Evgeniy Lashchenov in Natural Language Processing

покопаю в эту сторону, спасибо

источник

16:47пожаловаться #17

Evgeniy Lashchenov in Natural Language Processing

побуквенная разметка лучше чем по словам?

источник

16:47пожаловаться #18

Evgeniy Lashchenov in Natural Language Processing

для определения рукописного текста на картинке

источник

16:48пожаловаться #19

Andrey in Natural Language Processing

вам без синтетики своей не затащить думаю на 1000 примеров.

побуквенная хуже чем по словам (проще хотя), но многое будет упираться в точность детекции именно слов.

пути два - либо буквы и потом исправлять ошибки, либо слова - и потом исправлять ошибки.

в случае с трудовыми я бы начал бы с букв. кадровики не врачи

источник

16:50пожаловаться #20