Size: a a a

Распознавание речи

2019 March 13

А

Александр in Распознавание речи
почему канал тогда называется сфинкс?)))
источник

t2

tonko 22 in Распознавание речи
Александр
почему канал тогда называется сфинкс?)))
в какой-то момент он даже назывался espnet
источник

YP

Yaroslav Pikaliov in Распознавание речи
Можете подсказать как в Kaldi учитывать омографы (до'ма - дома')? Стоит использовать как в cmudict: слово(1) транс; слово (2) транс?
источник
2019 March 14

NS

Nikolay Shmyrev in Распознавание речи
Yaroslav Pikaliov
Можете подсказать как в Kaldi учитывать омографы (до'ма - дома')? Стоит использовать как в cmudict: слово(1) транс; слово (2) транс?
стоит, но цифры в скобках не нужны
источник
2019 March 15

НЕ

Никита Еремин in Распознавание речи
А подскажите, какой минимальный битрейт для распознавания kaldi может себе позволить?
источник

NS

Nikolay Shmyrev in Распознавание речи
битрейт это про сжатие
источник

NS

Nikolay Shmyrev in Распознавание речи
8khz модели натренированные для kaldi
источник

А

Александр in Распознавание речи
8khz - это частота дискретизации если ее умножить на количество бит в диапазоне квантования(разрядность) получим битрейт. предположу что у нас 8-ми битная разрядность - итого получим 64 Кбит/с
источник

NS

Nikolay Shmyrev in Распознавание речи
Александр
8khz - это частота дискретизации если ее умножить на количество бит в диапазоне квантования(разрядность) получим битрейт. предположу что у нас 8-ми битная разрядность - итого получим 64 Кбит/с
16 бит
источник

А

Александр in Распознавание речи
тогда 128)
источник

А

Александр in Распознавание речи
а надо 8. чтобы с 711(a/u) кодеками совпадало
источник

NS

Nikolay Shmyrev in Распознавание речи
у 711 кодека 64kbps
источник

NS

Nikolay Shmyrev in Распознавание речи
и даже 10kbps может хорошо работать, если кодек изменений малов вносит
источник

А

Александр in Распознавание речи
Nikolay Shmyrev
у 711 кодека 64kbps
я имел в виду разрядность
источник

NS

Nikolay Shmyrev in Распознавание речи
Adding the GPU lattice, batched, decoder. We're currently at 3500 XRTF end-to-end on V100, while generating full lattices, using this decoder and a TDNN acoustic model.

https://github.com/kaldi-asr/kaldi/pull/3114
источник

AZ

Andrey Zhonin in Распознавание речи
Не совсем понял, это скорость построения lattice или с декодированием до результата вместе?
источник

NS

Nikolay Shmyrev in Распознавание речи
все вместе
источник

AZ

Andrey Zhonin in Распознавание речи
Непонятно, как можно ускорить что-то подобное beam search на GPU, там же не получится прунить токены
источник

AZ

Andrey Zhonin in Распознавание речи
но если они придумали как - то молодцы
источник
2019 March 18

A

Artyom in Распознавание речи
Добрый день! Там не так давно было обсуждение про кодеки, есть ли шанс на хороший процент распознавания после кодека который жмет 20мс 8Кгц звука (160 семплов) в 49бит?.. И нет ли смысла не пытаться декодировать эти 49 бит, а сразу подавать их на вход нейросети?
источник