ID:347198853
на выходе должно быть (161/4, t/2)
уточнил. на выходе с первой свёртки 32 канала длиной по 61, на выходе со второй свёртки 32 канала длиной 21 , т.е. 672 числа, и да, ещё по временной оси time / 4:
torch.Size([BZ, 32, 21, t/4])
p.s. чем удобны свёртки? смотри, фонема "т" имеет паузу в 90 мс, потом происходит взрывной звук (аналогично, но короче — "к"). временная свёртка может сразу это учесть, вместо того, чтобы 5-9 шагов в RNN делать. свёртка может точно определить момент начала и окончания фонемы, итп — двумерные картинки проще распознавать CNN, а вот RNN потом уже учитывает индивидуальные особенности.
но в общем я прикинул, и мне теперь понятно, почему ширину RNN увеличивать со стандартной 800 без увеличения выхода свёртки бесполезно, там узкое место появляется.