Телеграмм чат группы cmusphinx

14:54пожаловаться #5

Там в репозитории сама сетка изи переписывается
Если принять их пре-процессинг за блек бокс, то даталоадер тоже изи, просто возни много
А такотрон пишут что заводится на их фичах

14:55пожаловаться #6

Самый геморрой имхо там в коде при генерации
Похоже на s2s + DSP фишки

14:56пожаловаться #7

Да на родном керасе, не в этом суть. В lpcnet тяжело pitch предсказать правильно, я так понял. Вообще модельки с тоном это так себе, вот даже в китайском калди отказались.

15:06пожаловаться #8

Предсказать, в смысле завести условный такотрон на предсказание питча?

15:10пожаловаться #9

Вы пробовали?
Пример выше более менее нормально звучит

15:10пожаловаться #10

Выше пример с Мерлином, такотрон не пробовал

15:14пожаловаться #11

Т.е. фичи просто извлекаются из готового wav?

15:18пожаловаться #12

Мерлин предсказывает

15:20пожаловаться #13

Using with Tacotron2 · Issue #52 · mozilla/LPCNet

Такотрон с лпс бразильцы сделали https://github.com/mozilla/LPCNet/issues/52

GitHub

Hello, I would like to connect a Tacotron2 model to LPCNet. Is there a way to convert the 80-mel coefficients (output of Taco2) into the 18 Bark scale + 2 pitch parameters (input of LPCNet) ? And s...

Vlad in Распознавание речи

15:25пожаловаться #14

В чём его отличие от WaveNet того же? Просто быстрее и всё? Ну и небольшое жужжание

15:26пожаловаться #15

Быстрее гораздо это важно

15:27пожаловаться #16

Надо на glott вокодере сделать, там устойчивее будет

Kim Young in Распознавание речи

15:29пожаловаться #17

Vlad

Такой шум легко RNNoise убирает вроде как, тихий и монотонный)

А различие нейро обработки шумов от алгоритмических сильно заметно?

15:54пожаловаться #18

Viacheslav Klimkov in Распознавание речи

Nikolay Shmyrev

Надо на glott вокодере сделать, там устойчивее будет

glott очень нестабильно себя ведет от спикера к спикеру. сами фины признавались

Vlad in Распознавание речи

15:58пожаловаться #19

Kim Young

А различие нейро обработки шумов от алгоритмических сильно заметно?

По первому впечатлению - только в скорости работы. Всякие logmmse по скорости даже рядом не стоят. На моём i5 RNNoise даёт примерно 25 реалтаймов, а logmmse сильно меньше