Ну работать удаётся с амплитудным спектром, а фаза теряется. Восстанавливать ее сложно. Плюс спектрограмма это спектр от окна скользящего по времени то есть это аппроксимация реальной функции которую мы слышим
Ещё само окно уменьшают. Вот как человек слушает: идёт песня последовательно, допустим 3 минуты, мы отмечаем для себя что-то что уже слышали раньше, какие-то похожие вещи, и далее делаем вывод что вот эта песня похожа на песню, которую слышал ранее, в том и в том. А те сети которые я смотрел в работах, память не содержат. И вывод сделать не смогут такой.