Size: a a a

Распознавание речи

2019 November 02

V

Vlad in Распознавание речи
Аудиозапись на примерно 60 сек обрабатывает около 2 сек на моём i5
источник
2019 November 05

NS

Nikolay Shmyrev in Распознавание речи
источник

NS

Nikolay Shmyrev in Распознавание речи
Дружно помогаем @snakers41
источник

NS

Nikolay Shmyrev in Распознавание речи
источник

A

Alexander in Распознавание речи
Nikolay Shmyrev
Просто в статьях чуток любят приукрашивать сейчас, а люди время тратят на воспроизведение результатов и не получается. Вот у меня недавно один знакомый сделал LPCNet потом долго гадал, как от шума избавиться.
А на чем он делал?
Питорч?
источник

A

Alexander in Распознавание речи
Там в репозитории сама сетка изи переписывается
Если принять их пре-процессинг за блек бокс, то даталоадер тоже изи, просто возни много
А такотрон пишут что заводится на их фичах
источник

A

Alexander in Распознавание речи
Самый геморрой имхо там в коде при генерации
Похоже на s2s + DSP фишки
источник

NS

Nikolay Shmyrev in Распознавание речи
Да на родном керасе, не в этом суть. В lpcnet тяжело pitch предсказать правильно, я так понял. Вообще модельки с тоном это так себе, вот даже в китайском калди отказались.
источник

A

Alexander in Распознавание речи
Предсказать, в смысле завести условный такотрон на предсказание питча?
источник

A

Alexander in Распознавание речи
Вы пробовали?
Пример выше более менее нормально звучит
источник

NS

Nikolay Shmyrev in Распознавание речи
Выше пример с Мерлином, такотрон не пробовал
источник

A

Alexander in Распознавание речи
Т.е. фичи просто извлекаются из готового wav?
источник

NS

Nikolay Shmyrev in Распознавание речи
Мерлин предсказывает
источник

NS

Nikolay Shmyrev in Распознавание речи
Такотрон с лпс бразильцы сделали https://github.com/mozilla/LPCNet/issues/52
источник

V

Vlad in Распознавание речи
В чём его отличие от WaveNet того же? Просто быстрее и всё? Ну и небольшое жужжание
источник

NS

Nikolay Shmyrev in Распознавание речи
Быстрее гораздо это важно
источник

NS

Nikolay Shmyrev in Распознавание речи
Надо на glott вокодере сделать, там устойчивее будет
источник

KY

Kim Young in Распознавание речи
Vlad
Такой шум легко RNNoise убирает вроде как, тихий и монотонный)
А различие нейро обработки шумов от алгоритмических сильно заметно?
источник

VK

Viacheslav Klimkov in Распознавание речи
Nikolay Shmyrev
Надо на glott вокодере сделать, там устойчивее будет
glott очень нестабильно себя ведет от спикера к спикеру. сами фины признавались
источник

V

Vlad in Распознавание речи
Kim Young
А различие нейро обработки шумов от алгоритмических сильно заметно?
По первому впечатлению - только в скорости работы. Всякие logmmse по скорости даже рядом не стоят. На моём i5 RNNoise даёт примерно 25 реалтаймов, а logmmse сильно меньше
источник