Size: a a a

Глубинное обучение (группа)

2018 July 22

NK

ID:347198853 in Глубинное обучение (группа)
а здесь в коде какой размер получается у spect?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
А в коде что написано? Я просто с мобилки, неудобно искать
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Sample rate=16k, window_size=0.02
источник

NK

ID:347198853 in Глубинное обучение (группа)
D = librosa.stft(y, n_fft=n_fft, hop_length=hop_length,
                        win_length=win_length, window=self.window)
spect, phase = librosa.magphase(D)
источник

YB

Yuri Baburov in Глубинное обучение (группа)
n_fft тебе нужно.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
16к*0.02=320, да?
источник

NK

ID:347198853 in Глубинное обучение (группа)
да
источник

YB

Yuri Baburov in Глубинное обучение (группа)
И от этого возьмётся половина+1
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Т.е. 161
источник

NK

ID:347198853 in Глубинное обучение (группа)
ок, то есть 161 frequency bins?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Да
источник

NK

ID:347198853 in Глубинное обучение (группа)
понятно, спасибо
источник

NK

ID:347198853 in Глубинное обучение (группа)
а вот еще вопрос по поводу convolutional layers:
источник

NK

ID:347198853 in Глубинное обучение (группа)
nn.Conv2d(1, 32, kernel_size=(41, 11), stride=(2, 2), padding=(20, 5)),
nn.Conv2d(32, 32, kernel_size=(21, 11), stride=(2, 1), padding=(10, 5))
источник

NK

ID:347198853 in Глубинное обучение (группа)
не пойму зачем использовать такие огромные kernels
источник

NK

ID:347198853 in Глубинное обучение (группа)
особенно если их так мало (32)
источник

YB

Yuri Baburov in Глубинное обучение (группа)
32х11, потом 32х32 выход, если я правильно прочитал, не?
источник

NK

ID:347198853 in Глубинное обучение (группа)
на выходе должно быть (161/4, t/2)
источник

NK

ID:347198853 in Глубинное обучение (группа)
это input to rnn layers
источник

NK

ID:347198853 in Глубинное обучение (группа)
то что сжимают картинки это понятно, непонятно зачем использовать фильтры (41,11) и (21,11)
источник