Size: a a a

Natural Language Processing

2020 June 28

FF

Futorio Franklin in Natural Language Processing
Потому что в вопросе поставлена именно задача классификации
источник

$

$○| in Natural Language Processing
И еще вопрос. Где взять датасет диалогов из чатов на русском
источник

$

$○| in Natural Language Processing
А то я нахожу лишь литературные диалоги
источник

$

$○| in Natural Language Processing
А мне надо именно реальное общение в чатах
источник

FF

Futorio Franklin in Natural Language Processing
Можно в телеге историю чата экспортировать, как вариант
источник

A

Aragaer in Natural Language Processing
яндекс же выкладывал
источник

A

Aragaer in Natural Language Processing
оно там не очень реальное, но похоже
источник

$

$○| in Natural Language Processing
Aragaer
яндекс же выкладывал
Где
источник

$

$○| in Natural Language Processing
источник

$

$○| in Natural Language Processing
Это не очень похоже на реальные диалоги
источник

A

Aragaer in Natural Language Processing
это после обработки файлов
источник

$

$○| in Natural Language Processing
тогда уж так
источник

$

$○| in Natural Language Processing
Потому что там есть места где один юзер говорит подряд две или три отдельных фразы а потом второй отвечает на них по очереди тоде двумя или тремя
источник

$

$○| in Natural Language Processing
Поэтому надо сохранять номера говорящих, чтобы не вышло что второй вопрос стал ответом на первый
источник

A

Aragaer in Natural Language Processing
ну да. Но для моих целей это не требовалось, мне нужен был только текст
источник

AK

Anton Kolonin in Natural Language Processing
Орц@ы
источник

AK

Anton Kolonin in Natural Language Processing
$○|
У меня стоит задача различить чем является фраза юзера, вопросом или не вопросом. Фразы задаются голосовым вводом, поэтому по знаку вопроса в конце предложения не вариант.
Парсишь корпус литературы, делишь на две группы предложений по наличию в конце знака вопроса. Тренируешь на этих двух наборах сетку. Например.
источник

$

$○| in Natural Language Processing
Anton Kolonin
Парсишь корпус литературы, делишь на две группы предложений по наличию в конце знака вопроса. Тренируешь на этих двух наборах сетку. Например.
Хорошо, так и сделаю
источник

$

$○| in Natural Language Processing
пока взял тот же датасет от яндекса и привел в вид где если во фразе есть вопрос то yes а если нет то no

потренировал классификатор - вроде работает
источник

AK

Anton Kolonin in Natural Language Processing
$○|
пока взял тот же датасет от яндекса и привел в вид где если во фразе есть вопрос то yes а если нет то no

потренировал классификатор - вроде работает
Какая сетка?
источник