Size: a a a

Natural Language Processing

2021 April 06

SM

Sasha Marova in Natural Language Processing
Kir L
Переслано от Kir L
друзья коллеги, кто занимался когда-либо измерением качества диалога/улучшением бота, есть пара вопросов:
1. Может быть есть ссылка на какой-то хороший материал по метрикам диалогов, пока читаю все подряд из гугла;
2. Представьте, что у вас есть лог диалогов, чат-бот с навыками, у каждого случая запуска навыка можно выделить начало и конец. Можно выделить положительно законченные случаи вызова навыка и отрицательно законченные. Какие бы исследования таких логов вы сделали бы в первую очередь?
Мне пока в голову не приходит ничего кроме как отобрать отрицательные и смотреть, почему они не закончились успешно, чтобы потом на основании этого сделать какие-то общие выводы.
Вторую фразу проверять после приветствия бота можно ( бывает человек изначально против беседы с ботом). Проверять орфографию, ,разговорную,ненормативную лексику, количество вопросов. Формулировки, т.е. структуру предложений (полные,неполные). Я бы так как- нибудь.
источник

VB

Valery Belyanin in Natural Language Processing
Тэгирование. В какой среде (попроще) лучше создавать словари для сентимент анализа? Как приписывать тэги, чтобы было обозримо? Эксель? Ворд - как?
источник

IS

I Sh in Natural Language Processing
Вот в этой: https://labelstud.io/
источник

M

Maks in Natural Language Processing
Добрый вечер, подскажите, пожалуйста, русcкоязычные каналы по машинному обучению в общем
источник

AY

Anastasia Y in Natural Language Processing
Всем привет! Хотела попросить совета по исследованию в вузе, в NLP понимаю мало)
Задача: классификация предложений на русском через BERT.
У меня есть тест сет на русском, небольшой трейн сет на русском и очень большой трейн сет, переведенный с английского на русский. Идея состоит в том, чтобы посмотреть, лучше ли, когда больше данных, но они менее качественные, или наоборот.
Я хочу с одними и теми же параметрами обучить сначала на маленьком "хорошем" сете, потом на большом "грязном" сете. Или попробовать постепенно увеличивать объем "грязного" сета, чтобы смотреть, обгонит ли он результаты "хорошего"
Корректно ли так делать? Есть ли какие-то похожие подходы/статьи?
источник

FF

Futorio Franklin in Natural Language Processing
Привет, ни у кого случайно нет таблицы частотности нграмм (хотя бы биграм) русского языка?
источник

DD

David Dale in Natural Language Processing
источник

FF

Futorio Franklin in Natural Language Processing
Благодарю!
источник

FF

Futorio Franklin in Natural Language Processing
А, там биграмы на словах. Мне бы символьные
источник

DD

David Dale in Natural Language Processing
Так из словных символьные легко получить))
источник

N

Natalia in Natural Language Processing
и есть ещё гугловские вроде, но там надо с датами поаккуратнее быть: https://storage.googleapis.com/books/ngrams/books/datasetsv3.html
источник

FF

Futorio Franklin in Natural Language Processing
Это-то конечно, просто вдруг есть txt файл, чтобы зря времени не тратить
источник

SK

Sergey Karpov in Natural Language Processing
Вообще, две модели, обученные на разных датасетах, можно сравнить на отложенной тестовой выборке. Можно вообще им отдельно подобрать параметры на валидационных выборках и потом сравнить лучшие варианты. И сделать выводы какой датасет и какая модель лучше подходит для решения задачи.
Если постепенно увеличивать датасет можно построить кривую качества от объема выборки и по ней посмотреть, когда закончится недообучение и наступит переобучения. И по ней сделать выводы об оптимальном размере выборки. А сравнить постепенно увеличивающийся датасет с маленьким не совсем корректно, потому что кроме объёма трейна еще будет влиять скос данных.
источник

AY

Anastasia Y in Natural Language Processing
Спасибо большое за ответ! Буду думать)
источник

Е

Егорка in Natural Language Processing
Добрый вечер. Не мог бы кто-нибудь, пожалуйста, подсказать:
В моем небольшом исследовании одной из задач является извлечение идентификаторов вида: телефонный номер, электронная почта, IP- и MAC-адрес, URL из текстовых данных.
Отсюда вопрос: какой инструмент или подход можете посоветовать ? Понятно, что для каждого из идентификаторов можно регулярку написать, но я не уверен, что именно так сейчас решают такие задачи, да, и собственные регулярки тестить нужно.
Я видел, что можно в yargy написать правила для каждого из типов идентификаторов. М.б. кто-то может поделиться готовыми. Буду благодарен.
источник

SK

Sergey Karpov in Natural Language Processing
Так же в случае с нейросетями нужно учесть такой момент, что влияет не столько размер выборки сколько количество батчей, которые мы через нее прогнали за несколько эпох. Может получиться, что 2 раза прогнать короткую выборку лучше, чем 1 раз длинную, например. Поэтому сравнить модели с подобранными гиперпараметрами тоже нужно
источник

וק

ולדימיר קון... in Natural Language Processing
про размер сета, ага...была кстати похожая работа  https://arxiv.org/abs/2006.04884
источник

М

Марк in Natural Language Processing
можно попробовать обучить модель на большом датасете, а потом пару эпох дотюнить на малом.
источник
2021 April 07

AY

Anastasia Y in Natural Language Processing
Супер, спасибо большое!
источник

AO

Alex Orgish in Natural Language Processing
источник