Size: a a a

Natural Language Processing

2020 June 29

$

$○| in Natural Language Processing
А не я ж just4fun и учусь пока только
источник

DD

David Dale in Natural Language Processing
А из имеющихся я бы посмотрел ещё на датасет DaNetQA, недавно собранный коллегами для https://russiansuperglue.com/tasks/. Он узконаправленный, зато качественный.
источник

$

$○| in Natural Language Processing
О, посмотрю сейчас
источник

$

$○| in Natural Language Processing
Там да и нет ответы?
источник

$

$○| in Natural Language Processing
То есть вопросы подразумевают ответы да и нет?
источник

$

$○| in Natural Language Processing
Название такое натолкнуло на мысль
источник

$

$○| in Natural Language Processing
Еще не скачал
источник

$

$○| in Natural Language Processing
Полезный датасет
источник

$

$○| in Natural Language Processing
Там еще текст есть
источник

DK

Denis Kirjanov in Natural Language Processing
$○|
Мне нужно классифицировать вопросы, чтобы дать на них краткий ответ

Если вопрос был какая высота у биг бена то в ответ число
Если как мне найти девушку то в ответ чтение статьи про это
а могут задавать не-вопросы? мы уверены, что всегда задаются вопросы?
источник

$

$○| in Natural Language Processing
Можно оценить например deeppavlovский squad
источник

$

$○| in Natural Language Processing
Denis Kirjanov
а могут задавать не-вопросы? мы уверены, что всегда задаются вопросы?
Например
источник

DK

Denis Kirjanov in Natural Language Processing
$○|
Например
если уверены, то поисковик зайдет, да
источник

$

$○| in Natural Language Processing
Я пока делю фразы на 4 категории

Болтание ни о чем (smalltalk)
Команды
Поисковые вопросы
Факты о чем-то
источник

DD

David Dale in Natural Language Processing
$○|
Можно оценить например deeppavlovский squad
Ну squad как раз толокерами генерировался
источник

К

Константин in Natural Language Processing
$○|
Не знаете где взять датасет поисковых вопросов

Типа например

Где живут лемуры
Где обитают обезьяны
Где родился Майкл Джексон
Где находится город Астана
Где живет Киану Ривз
Где мне взять денег
Где достать побольше травы
Где найти хорошую девушку
Где мне найти работу
В каком городе стоит статуя свободы
В какой стране говорят на английском
В какой стране все носят юбки
В какой стране нет войны
Предлагаю seo-подход
1) парсим сайт вопрос-ответов, берем вопрос (обычно это title+хвост или h1)
2) фильтруем h1 по наличию вопросительных слов (можно и модельку навернуть вопрос это или нет, если есть лейблы true)
3) затем в wordstat получаем точную частоту (это с оператором ковычки)
4) оставляем только запросы , что показатели частотность.
источник

$

$○| in Natural Language Processing
Константин
Предлагаю seo-подход
1) парсим сайт вопрос-ответов, берем вопрос (обычно это title+хвост или h1)
2) фильтруем h1 по наличию вопросительных слов (можно и модельку навернуть вопрос это или нет, если есть лейблы true)
3) затем в wordstat получаем точную частоту (это с оператором ковычки)
4) оставляем только запросы , что показатели частотность.
Хорошая идея.
источник

DD

David Dale in Natural Language Processing
$○|
Я пока делю фразы на 4 категории

Болтание ни о чем (smalltalk)
Команды
Поисковые вопросы
Факты о чем-то
О, кстати, что касается запросов к голосовому помощнику: часть запросов к Алисе прорастают в вордстат. И их тоже можно попробовать отфильтровать)
источник

$

$○| in Natural Language Processing
David Dale
О, кстати, что касается запросов к голосовому помощнику: часть запросов к Алисе прорастают в вордстат. И их тоже можно попробовать отфильтровать)
Интересно а Алису саму кто-нибудь парсил имитируя диалог
источник

$

$○| in Natural Language Processing
Программно
источник