Size: a a a

Natural Language Processing

2020 June 29

VS

Victor Stepankov in Natural Language Processing
David Dale
в вордстате просто очень много свежих и репрезентативных поисковых запросов, из которых именно вопросы можно отфильтровать по наличию вопросительных слов в них.
из вордстата врядли получится набрать именно длинных, живых низкочастотных
источник

DD

David Dale in Natural Language Processing
Victor Stepankov
из вордстата врядли получится набрать именно длинных, живых низкочастотных
Про общий случай не скажу, у меня такого опыта нет.
Но например когда мне весной нужно было получить выборку вопросов про коронавирус, из вордстата удалось вытащить довольно длинные, сложные и разнообразные вопросы.
И подозреваю, что для любой достаточно определенной и достаточно популярной предметной области такое можно провернуть.
источник

$

$○| in Natural Language Processing
Мне больше общие вопросы нужны
источник

$

$○| in Natural Language Processing
Тут важны даже не сами вопросы а то как их задают
источник

VS

Victor Stepankov in Natural Language Processing
Просто в вордстате для этого нужно в большую глубину уходить, ещё и чистить условное "Где купить в Москве" от "Где купить бассейн"
источник

$

$○| in Natural Language Processing
Чтобы понять что юзер ищет
источник

DK

Denis Kirjanov in Natural Language Processing
вообще кажется что у поисковых запросов очень своеобразный синтаксис, про это даже статья была, называлась "кормить свинью онлайн бесплатно"
источник

DK

Denis Kirjanov in Natural Language Processing
т.е. там интент вопроса де-факто есть у каждого запроса практически, но вопросительно оформлен минимум из них
источник

DK

Denis Kirjanov in Natural Language Processing
ну и порядок слов там своеобразный, а это явно для той же прессы полезная фича при выделении вопросов
источник

$

$○| in Natural Language Processing
Denis Kirjanov
т.е. там интент вопроса де-факто есть у каждого запроса практически, но вопросительно оформлен минимум из них
Да но голосовой ассистент предполагает именно вопросы
источник

VS

Victor Stepankov in Natural Language Processing
Denis Kirjanov
вообще кажется что у поисковых запросов очень своеобразный синтаксис, про это даже статья была, называлась "кормить свинью онлайн бесплатно"
ну, есть олдовые юзеры, которые пишут "москва бассейн купить", а есть модный и молодёжный голосовой поиск, где максимально приближено к реальности
источник

DK

Denis Kirjanov in Natural Language Processing
Victor Stepankov
ну, есть олдовые юзеры, которые пишут "москва бассейн купить", а есть модный и молодёжный голосовой поиск, где максимально приближено к реальности
ну вот кажется, что данные будут грязноватыми
но зависит от конечной цели, зачем вообще выделять вопросы и на каком домене потом применять на инференсе
источник

DD

David Dale in Natural Language Processing
Denis Kirjanov
вообще кажется что у поисковых запросов очень своеобразный синтаксис, про это даже статья была, называлась "кормить свинью онлайн бесплатно"
Ну вот и выбирай теперь: или реальные запросы от реальных людей, но на "поисковом языке", или грамматически более корректные вопросы, сгенерированные толокерами :)
источник

DK

Denis Kirjanov in Natural Language Processing
David Dale
Ну вот и выбирай теперь: или реальные запросы от реальных людей, но на "поисковом языке", или грамматически более корректные вопросы, сгенерированные толокерами :)
ну да, зависит имхо всецело от домена инференса и данных на нем
источник

$

$○| in Natural Language Processing
David Dale
Ну вот и выбирай теперь: или реальные запросы от реальных людей, но на "поисковом языке", или грамматически более корректные вопросы, сгенерированные толокерами :)
А где вопросы от толокеров. Вы про тот корпус диалогов? Но он совсем не поисковой направленности
источник

$

$○| in Natural Language Processing
Denis Kirjanov
ну вот кажется, что данные будут грязноватыми
но зависит от конечной цели, зачем вообще выделять вопросы и на каком домене потом применять на инференсе
Мне нужно классифицировать вопросы, чтобы дать на них краткий ответ

Если вопрос был какая высота у биг бена то в ответ число
Если как мне найти девушку то в ответ чтение статьи про это
источник

$

$○| in Natural Language Processing
То есть разные задачи в зависимости от вопроса
источник

DD

David Dale in Natural Language Processing
$○|
А где вопросы от толокеров. Вы про тот корпус диалогов? Но он совсем не поисковой направленности
Нет, я не про имеющийся корпус, я про то, чтобы собственную выборку вопросов собрать. Так иногда делают при публикации новых датасетов по QA.
источник

$

$○| in Natural Language Processing
David Dale
Нет, я не про имеющийся корпус, я про то, чтобы собственную выборку вопросов собрать. Так иногда делают при публикации новых датасетов по QA.
Это надо платить толокерам или как
источник

DD

David Dale in Natural Language Processing
$○|
Это надо платить толокерам или как
Платить надо, да
источник