Ну, голоса находятся в определённом спектре, содержат определённые паузы и т.д, а музыка обычно непрерывна.
Грубо говоря, делаем fft фигни. Если у нас задействован только узкий набор частот (присущий речи) и присутствуют регулярные паузы — перед нами скорее всего речь.