Size: a a a

Natural Language Processing

2021 May 19

DD

David Dale in Natural Language Processing
Ну да, на выходе из этого последнего слоя (так называемая MLM head) Берт выдает матрицу размера seq_len*vocab_size, где для каждого входного токена дается распределение (в виде логитов) на его возмножные замены.
источник

FF

Futorio Franklin in Natural Language Processing
А [CLS] токен используется параллельно для next sentence prediction получается. Кстати, при сложении эмбеддингов токенов в позиционными эмбеддингами, позиции считаются от [CLS] токена или от неслужебного токена?
источник

FF

Futorio Franklin in Natural Language Processing
В любом случае спасибо за ответ на первую часть вопроса
источник
2021 May 20

MA

Muhammed Alimbetov in Natural Language Processing
Всем привет, какие сайты посоветуете парсить для качественного сбора датасета наподобие пикабу? важно чтобы была фича с эмоциями. Подойдут новостные сайты.
источник

k

kosc in Natural Language Processing
А почему не парсить сам пикабу?
источник

MA

Muhammed Alimbetov in Natural Language Processing
уже спарсил, у них фича с эмоциями вышла недавно, собрал  небольшой датасет (около 15k) но этого не достаточно
источник

ML

MOD LAVREEQUE in Natural Language Processing
Попросить знакомых админов чатов на тему свободного общения выгрузить логи?
источник

SM

Sergei Markoff in Natural Language Processing
Приходите посмотреть. В 13:55 в секции «Machine Learning» выступит Татьяна Шаврина, а в 16:05 в секции «Салют + платформы» под её же руководством пройдёт круглый стол «Генеративные языковые модели: возможности и сложности», в котором примут участие Михаил Бурцев, Григорий Сапунов, Иван Ямщиков и ваш покорный слуга. А ещё в этом круглом столе поучаствует один секретный участник 🙂
https://smartdev.ru/
источник

OR

Oleg Ruban in Natural Language Processing
записи будут?
источник

SM

Sergei Markoff in Natural Language Processing
будут
источник

YA

Yerlan Amanzholov in Natural Language Processing
Всем привет! Такой чисто теоритический вопрос: мы знаем что в CNN первые слои выделяют более общие признаки, как углы и т.д. Верна ли такая же логика для трансформерных архитектур? Например то что первые слои выделяют признаки на уровне слов
источник

Е

Егорка in Natural Language Processing
Вы сравниваете CNN для изображений и трансформеры для текстов.
Быть может уместнее сравнивать CNN для текстов с трансформерами ? В таких CNN извлекается информация из n-грамм на верхних слоях.
источник

SancheZz Мов in Natural Language Processing
Трансформеры выбирают оттенки смыслов относительно позиционности и тп. Чем  дальше от начала находится блок трансформера (от входа) тем больше разных комбинаций оттенков мы получаем в отображении.
источник

SancheZz Мов in Natural Language Processing
А теперь самое веселое, что делает visual transformer в CV?)
источник

A

Andrei in Natural Language Processing
а где про это можно почитать?
источник

SancheZz Мов in Natural Language Processing
На енглише или русском?)
источник

SancheZz Мов in Natural Language Processing
На русском есть статья с курса deep learning на пальца Attention is all you need
источник

FF

Futorio Franklin in Natural Language Processing
В статье про TinyBert (секция 4.6 Effects of Mapping Function) описывалось, что модель, которая построена из нижних слоёв трансформера справляется лучше с задачами на грамматику, в то время как модель, построенная из верхних слоёв лучше справляется с более абстрактными задачами. Так что, скорее всего, так и есть
источник

SancheZz Мов in Natural Language Processing
источник

K

Ksenia in Natural Language Processing
Тьмы таких статей, syntactic/semantic probing of transformers, вот первая ссылка из гугла (относительно старенькая правда, 2019) https://www.aclweb.org/anthology/P19-1356.pdf
источник