И более общий вопрос, кто-нибудь пробовал работать с аудио данными сырыми, без создания 2D представления?
Ты же уже в vk/deeplearning спрашивал, не? Я когда-то работал, но фурье лучше, просто готовить его надо ближе к человеческому. Но и без этого с речью проблема не в распознавании звуков -- их всего меньше сотни, а в распознавании их комбинаций в словах, your bunny wrote, понимаешь-ли