Телеграмм чат группы natural_language

Ну по сути это вариации одного и того же.
если вы делаете отдельный вход в модель, то потом все равно решаете что как объединить эмбеддинги внутри модели(конкатенировать, усреднить)
Но технически можно легко получить эмбединги например с помощью https://github.com/UKPLab/sentence-transformers
И потом просто добавить ваши признаки к этому вектору, отправить полученный вектор в новую модель, например логистическую регрессию и получить нужный вам вариант выхода.

GitHub

UKPLab/sentence-transformers

Sentence Embeddings with BERT & XLNet. Contribute to UKPLab/sentence-transformers development by creating an account on GitHub.

источник

16:56пожаловаться #10

➔m

➔◾ maria myznikova... in Natural Language Processing

Спасибо большое за помощь и объяснение

источник

16:57пожаловаться #11

Марк in Natural Language Processing

😉

источник

16:57пожаловаться #12

Timur in Natural Language Processing

Задача называется relation extraction

источник

18:09пожаловаться #13

Марк in Natural Language Processing

Точно, спасибо!

источник

19:11пожаловаться #14

МП

Михаил Притугин... in Natural Language Processing

Добрый день!
Подскажите решения/статьи по исправлению ошибок распознавания речи и восстановление пунктуации.
Слышал люди Берты обучают для этого, но чего-то подробного не нашел
Заранее спасибо!

источник

20:38пожаловаться #15

Anton in Natural Language Processing

https://github.com/vlomme/Bert-Russian-punctuation

GitHub

vlomme/Bert-Russian-punctuation

Простая модель расстановки запятых на основе BERT. Contribute to vlomme/Bert-Russian-punctuation development by creating an account on GitHub.

источник

20:45пожаловаться #16

МП

Михаил Притугин... in Natural Language Processing

Попробовал, так себе))

источник

22:54пожаловаться #17

2021 April 28

Alexander Kukushkin in Natural Language Processing

На прошлой неделе прошла конференция Balto-Slavic NLP, на которой, в частности, презентовали несколько интересных работ по русскому языку.

Russian Paraphrasers: Paraphrase with Transformers. Авторы собрали датасет русских парафраз из субтитров, новостных заголовков и диалогов с чатботами (как набирали последние, непонятно). На таких парах дообучили GPT от Сбера и mT5 (T5 работает заметно лучше, чем GPT). При генерации разные варианты парафраз переранжируются по косинусной близости их эмбеддингов предложений. В результате получается около 60-70% хороших парафраз по оценкам авторов, и около 50% - по моим собственным. Пробовали применить парафразеры для аугментации обучающих выборок задач Russian superGLUE, но прироста качества почти не получилось. Нейросетки выложены на huggingface, а готовый пакет для перефразирования - на гитхаб. Моё мнение: результат неидеального качества, но это шаг в очень важном направлении, ибо хорошие парафразеры важны для кучи других задач NLU и NLG.

Creating an Aligned Russian Text Simplification Dataset from Language Learner Data. Авторы взяли книги для иностранцев на упрощённом русском языке и произвели выравнивание их абзацев с оригиналами книг на обычном русском. Получили параллельный корпус, где в более простой версии втрое меньше уникальных слов и вдвое короче предложения. Обучили на этом нейросетку для упрощения текстов, и вроде бы качество хорошее, но ни модель, ни корпус авторы пока не выложили, так что проверить сложно. Но если вам нужна симплификация для русского уже сейчас, берите дорожку с Диалога и модель Дани Анастасьева, занявшую первое место в этой дорожке.

Abusive Language Recognition in Russian. Авторы собрали датасет на 15К абзацев из Твиттера, субтитров к South park, и уже имеющегося датасета с Кэггла, и разметили его на предмет оскорбительности. На этом попробовали обучать разные модели, и tf-idf+SVM показал себя лучше, чем BERT. Видимо, токсичность на этом датасете сводится в основном к использованию плохих слов. Данные выложены, можно пользоваться. Впрочем, непонятно, насколько это лучше, чем данные из соревнования Одноклассников.

Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company’s Reputation - работа моих коллег по Сколтеху, в каком-то смысле дополняющая предыдущую. Задача - обезопасить диалоги с чатботом, научиться выделять в сообщениях потенциально опасные темы (от наркотиков и терроризма до боди шейминга и суицида), а также конкретные опасные предложения на эти темы. И в общем-то, это две разные задачи, поскольку не любое сообщение на опасную тему само по себе является опасным. Авторы собрали датасеты из двача и ответов mail.ru, пофильтровали эвристиками и разметили на Толоке. На этом обучили два BERTа, ими вполне можно пользоваться для фильтрации сообщений (скомбинировав их со стандартным фильтром на токсичную лексику).

Там же представили статью RuSentEval: Linguistic Source, Encoder Force! о пробинге русских бертов, про которую я уже писал недавно.

источник

09:39пожаловаться #18

Denis Kirjanov in Natural Language Processing

https://m.habr.com/ru/news/t/554662/

Habr

Яндекс и НИУ ВШЭ в Санкт-Петербурге открывают Лабораторию естественного языка

В лаборатории будут исследовать тексты на естественном языке, разрабатывать методы deep learning для их генерации и анализировать данные в компьютерной лингвистике. «Яндекс» на правах партнера...