Size: a a a

Natural Language Processing

2021 April 16

DK

Daniel Kornev in Natural Language Processing
https://www.nvidia.com/en-us/on-demand/session/gtcfall20-a21430/

Видеорассказ с прошлого NVIDIA GTC Fall 2020
источник

DK

Daniel Kornev in Natural Language Processing
https://gtc21.event.nvidia.com/media/What%20is%20Multiskill%20AI%20Assistant%20and%20How%20to%20Manage%20Dialog%20Strategy%20in%20Multiskill%20AI%20Assistants%20with%20DeepPavlov%20%5BE31465%5D/1_evguh6he

А тут на NVIDIA GTC 2021 мы рассказали про наш опыт в, и видение об управлении диалогом в multiskill AI assistants
источник
2021 April 17

MA

Muhammed Alimbetov in Natural Language Processing
Мой датасет выглядит вот так:
sentence                                                                                                                            emotions
Преклонять колено только перед Богом и женщинами.....................            {'kind':105, 'sad':32, 'angry':5}
с похмелья на работе? Поставьте лестницу и ложитесь вниз.....            {'surprised': 65, 'kind': 10}

То есть, каждый пост имеет несколько эмоции например: kind:158, smile:32, angry:5 ...
Цифры рядом с эмоциями это количество людей у которых были вызваны данные эмоции.

По сути, моя цель - предсказать тип эмоций, которые может вызвать пост. Я собираюсь использовать трансформатор BERT с Deep Pavlov

Вопрос: Как быть в данном случае? Нормально ли давать BERTу данные в таком формате? Или лучше убрать цифры? или же оставить только ту эмоцию которое набрал максимальное количество голосов? у кого был похожий опыт, поделитесь пожалуйста.
источник

ni

n i in Natural Language Processing
источник

AM

Alex Mak in Natural Language Processing
Как в примере, что показали в первом ответе, у каждой метки для каждого текста обычно либо 0 либо 1. Могут быть нули у всех и единицы тоже.

Но у вас как бы есть своеобразные веса для каждой метки каждого текста. Интересно, кто-то делал с «весами»? Я лично не сталкивался.
источник

AM

Alex Mak in Natural Language Processing
И еще. А почему именно bert? Я просто на том же kaggle видел архитектуры моделей более простые (на lstm например) и они тоже неплохо работали.
источник

V

Vic in Natural Language Processing
Ребята, а как вы подходите к задаче, когда вам нужно классифицировать тексты по мета-уровню, человеческим скиллам: например я хочу знать, где в репликах в чатботе выражается мнение, и отделять все остальные реплики, где мнение по любым поводам не выражается.
Сюда же относятся и другие сильно размытые, абстрактные категории типа: выражение сомнения в чем-то(но не важно в чем) и тп
В принципе, это похоже на сентимент анализ мультикласс, делается бертом и похожими. Но в чем проблема: ведь когда мы возьмем датасет и будем учать модель, она будет выучивать кучу фич, которые нам не нужны, и в первую очередь это тематики, то есть если сделаем датасет и там будет 5 тематик с мнением то модель выучит и тематики, а на остальные тематики не станет понимать мнение. Понятно, что надо разнообразно значит.
но есть ли какой-то подход, который на корню проникает в глубокий смысл высказывания? (да, на регэкспах не предлагать)
источник

VV

VVS VVS in Natural Language Processing
источник

E

Elena in Natural Language Processing
Нужен хороший размеченный корпус по четким критериям, что есть мнение, а что все остальное.
источник

E

Elena in Natural Language Processing
Если возможно сделать такой корпус, то задача немного упрощается
источник

E

Elena in Natural Language Processing
Какие критерии у мнения? Я говорю "я считаю, что земля плоская" - это мнение? А из моих же уст "земля плоская" — это мнение?
источник

E

Elena in Natural Language Processing
В нлп в разделе фейк ньюс есть задача выделения "проверяемости" текста. То есть содержит ли текст какие-то факты, которые потом можно подтвердить или опровергнуть, или в тексте только вода и переливание из пустого в порожнее. Может быть, это близкое к вашей задаче.
источник

V

Vic in Natural Language Processing
да, похоже
источник

E

Elena in Natural Language Processing
если задача определять фразы где содержатся маркеры мнения, то есть определенные слова и выражения, то это можно сделать с помощью словаря (грубо говоря, набрать все возможные маркеры) и возможно добавить семантическую близость. Надо пробовать, я не пробовала. Теоретически, в этом случае будет высокий precision и низкий recall, как-то так.
источник

MA

Muhammed Alimbetov in Natural Language Processing
Спасибо
источник

MA

Muhammed Alimbetov in Natural Language Processing
ТЗ требует BERT. Спасибо
источник

Е

Егорка in Natural Language Processing
Добрый вечер
Не мог бы кто-нибудь поделиться датасетами текстов с размеченными адресами электронных почт и телефонных номеров (номера нашей зоны) ? Мне только для тестирования, поэтому можно совсем небольшие.
источник

YB

Yuri Baburov in Natural Language Processing
В общем случае, это, пожалуй, называется "модальность". Бывает модальность "я хочу", "я могу", а бывает модальность "я думаю что", "я верю что" и "я знаю что".
И если саму модальность можно выделить по ключевым фразам, как и сказали выше (этих фраз не так много), то вот соотнесение сказанной фразы и действительности -- это сложная задача, на уровне построения AGI. На какой-то процент эта задача решается (примерно на 40-50% , когда факты более популярные и соответствуют тем видам хранения информации, что находятся в базах знаний), а остальной рост на этой задаче -- задача будущего (возможно, далёкого)
источник

SP

Sebastian Pereira in Natural Language Processing
Есть другой подход «теория речевых актов».
источник

👁👁

👁 👁 in Natural Language Processing
Всем добрый вечер. Вопрос такой - лосс начиная с определенной эпохи начинает выдавать nan, как можно фиксить при условии что градиент клиппер уже прикручен?
Пробовал стартовый лернинг рейт меньше делать - лосс хуже к минимуму сходиться.
Увеличение размера батча тоже не помогло.
источник