Size: a a a

Natural Language Processing

2021 May 05

YA

Yerlan Amanzholov in Natural Language Processing
Готового не видел, но думаю если покопаться немного в  rasa можно легко сделать такого чатбота
источник

DD

David Dale in Natural Language Processing
Готового классификатора интентов нет, ибо бизнес-логика практически у каждого магазина своя.
Датасет диалогов можно использовать для создания своего размеченного корпуса интентов)
источник

AM

Aleksandr Mester in Natural Language Processing
Что есть rasa?
источник

YS

Yehor Smoliakov in Natural Language Processing
Добрый день.

А кто добавил украинский язык в pymorphy2?
источник

AM

Aleksandr Mester in Natural Language Processing
Странно, учитывая что вопросы про наличие, спецификацию товаров и т.п. кажутся одинаковыми. Ещё может подскажете, я правильно понимаю, что генерацию ответов-заглушек делают обычно из набора готовых фраз, выбираемых моделью, а не какой то генеративной сетью?
источник

DD

David Dale in Natural Language Processing
Можно и генеративной, смотря что для вас важнее: делать ответы разнообразными или не генерировать время от времени лютую дичь.
источник

AM

Aleksandr Mester in Natural Language Processing
А где берут датасеты для этих ответов? Адекватнонго вида.
источник

GF

Grigory Frantsuzov in Natural Language Processing
Очень давно добавили, можно посмотреть контрибьюторов
источник

DD

David Dale in Natural Language Processing
Можно из вашего же датасета диалогов с оператором взять, можно ручками нагенерировать. Если брать из открытых источников (соцсети, субтитры, литература), там будет опять таки много трэша.
источник

AM

Aleksandr Mester in Natural Language Processing
Значит все как и подозревал. В очередной раз спасибо за ответы.
источник

AZ

Andrey Zakharov in Natural Language Processing
добавлю, что перевести разговоры оператора с клиентами в вид чат бота многоитеративная задача
источник

AM

Aleksandr Mester in Natural Language Processing
Я подозревал, просто хотел получше понять, какие итерации и что можно сделать. Просто человек думал - вот есть история, и магический мл - давай чат бота сделаем.
источник

РА

Роман Арасланов... in Natural Language Processing
Добрый день. Можете ли вы подсказать, при установке модуля python natasha 1.4.0 потребуется ли постоянное подключение к интернету для интеграции с внешними ресурсами? Вопрос не случаен, дело в том, что в организации этот процесс под контролем безопасников, и хотелось бы знать, необходимо ли модулю постоянное подключение либо он может работать offline?
источник

СИ

Сергей Ильин... in Natural Language Processing
Добрый день. Задача кластеризации текстов.

Датасет -  2000 объектов с текстовым описанием.
Текстовое описание - довольно короткое, десяток предложений.
напр., объект "береза" (с описанием) и объект "сосна". Хочется, чтобы они семантически попадали в кластер "деревья", даже при условии, что слово "дерево" не встретится ни там, ни там.
Не все объекты в датасете являются деревьями.

в ODS подсказали, что лучше всего это делать через BERT (LDA меня не спасет по их словам), но хочется еще мнений.
Или ткнули в верном направлении и мне смотреть в сторону предобученных эмбеддингов?
источник

AM

Aleksandr Mester in Natural Language Processing
Мне кажется, LDA могло бы спасти, если бы была хорошая готовая модель обученная на большущем датасете на тысячи топиков, один из которых был бы деревья. Мысль идти в семантику для вашей задачи кажется правильной - переходим в семантическое пространство, и по идее, если модель подходящая - близкие по смыслу тексты будут рядом и при кластеризации попадут в один кластер. Если тексты короткие - я бы попробовал начать с гуглового Universal Sentence Encoder, есть мультиязычная модель, которая кушает и русский язык. По опыту, она неплохо ловит тематики, и ПОК займет немного времени.
источник

AM

Aleksandr Mester in Natural Language Processing
Здесь есть более компетентные люди по наташе, но по-моему после скачивания моделей она работает вполне себе автономно.
источник

РА

Роман Арасланов... in Natural Language Processing
Спасибо
источник

YS

Yehor Smoliakov in Natural Language Processing
спасибо
источник

YA

Yerlan Amanzholov in Natural Language Processing
В продолжение темы чатботов, есть такая задача: клиенты должны придумать хотя бы несколько примеров для каждого интента в чатботе. Есть ли какие нибудь методы чтобы помогать им в этом? Пробовал в сторону текстовой аугментации, но пока не нашел качественных решений
источник

DD

David Dale in Natural Language Processing
1) взять парафразер (относительно неплохие есть от Сбера) и ими погенерировать примеры. По моему опыту, около половины выходят валидные.
2) Если есть куча неразмеченных реплик, можно пропустить их через какой-то sentence encoder и искать близкие к имеющимся примерам
3) Опять же, если есть большой неразмеченный датасет, можно попробовать активное обучение
источник