Size: a a a

Глубинное обучение (группа)

2018 July 20

NK

ID:347198853 in Глубинное обучение (группа)
как споткнулся?
источник
2018 July 21

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
ребята, подскажите насчет speech recognition: я там вижу разные виды audio processing: mfcc, filter banks, including delta+ delta-delta. Получается очень разный размер инпута: от (timesteps, 13) with mfcc, до (timesteps, 39) или даже (timesteps, 161) for linear spectrograms. Это все для LibriSpeech на DeepSpeech моделях.
Да, всё так. И в чём проблема?
источник
2018 July 22

NK

ID:347198853 in Глубинное обучение (группа)
Yuri Baburov
Да, всё так. И в чём проблема?
так какой из них использовать?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
так какой из них использовать?
Любой. Большая разрешающая способность лишь чуть-чуть увеличивает качество.
источник

NK

ID:347198853 in Глубинное обучение (группа)
а не в курсе какой использовали в deepspeech статьях?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Yuri Baburov
Любой. Большая разрешающая способность лишь чуть-чуть увеличивает качество.
Буквально на доли процента в чистых условиях, на пару процентов в шумных, если есть много данных
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
а не в курсе какой использовали в deepspeech статьях?
Ты возьми просто репозиторий с deep speech 2 на pytorch
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Yuri Baburov
Ты возьми просто репозиторий с deep speech 2 на pytorch
источник

YB

Yuri Baburov in Глубинное обучение (группа)
У меня на комбинированном английском датасете в 2000 часов WER порядка 18% что-ли получился на стандартных параметрах нейросети (2хCNN, 5xGRUx800)
источник

NK

ID:347198853 in Глубинное обучение (группа)
а как называется то что они делают тут: https://github.com/SeanNaren/deepspeech.pytorch/blob/master/data/data_loader.py#L116
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Дискретное преобразование Фурье, оно же FFT
источник

NK

ID:347198853 in Глубинное обучение (группа)
это часть mfcc?
источник

NK

ID:347198853 in Глубинное обучение (группа)
я просто еще плохо шарю в этих методах
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
это часть mfcc?
Нет, вместо mfcc там нейросеть изобретает его аналог
источник

YB

Yuri Baburov in Глубинное обучение (группа)
У mfcc на выходе 13 единиц. И ещё чаще берут две дельты, получая 39 входов
источник

NK

ID:347198853 in Глубинное обучение (группа)
насколько я понимаю, в mfcc тоже используется FFT как первый шаг
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
насколько я понимаю, в mfcc тоже используется FFT как первый шаг
Ага. А потом делаются суммы по частотам.
источник

NK

ID:347198853 in Глубинное обучение (группа)
так в чем главное различие между mfcc и тем что они здесь делают?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
так в чем главное различие между mfcc и тем что они здесь делают?
MFCC настроен на человеческий голос, а нейросеть может выделять голос даже из больших шумов.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Если у тебя шумов мало, работают одинаково. Если много шумов, фоновая музыка, или эхо есть, то нейросеть начинает лучше работать.
источник