Телеграмм чат группы ru_deep

я её не пробовал, и лишний геморрой я не люблю, соответственно, в чём отличия версий я не знаю.
знаю, что версия для TF умеет читать MP3, а про версию для pytorch я не знаю.
(432 часа от mozilla common voice идут в mp3)

источник

10:00пожаловаться #4

Yuri Baburov in Глубинное обучение (группа)

вообще, такой нюанс по количеству данных:
рост качества отмечается примерно до 6000 часов, потом уже роста почти нет.
дальше качество нужно языковой моделью улучшать -- ещё на 10% вроде бы можно в среднем ошибку уменьшить.

источник

10:01пожаловаться #5

ID:347198853 in Глубинное обучение (группа)

ок, то есть 460 часов это недостаточно

источник

10:02пожаловаться #6

Yuri Baburov in Глубинное обучение (группа)

ну как недостаточно... я сначала на мелких датасетах учил, все по очереди, с AN4, потом Voxforge.

источник

10:03пожаловаться #7

Yuri Baburov in Глубинное обучение (группа)

ну будет поменьше точность, но не критично. плохо то, что она будет оверфитить на конкретные голоса.

источник

10:04пожаловаться #8

Yuri Baburov in Глубинное обучение (группа)

соответственно, на меньшем корпусе натренируешь, у тебя будет там низкий WER, но при проверке его на большем корпусе WER вырастет для сильно отличающихся голосов.

источник

10:06пожаловаться #9

Yuri Baburov in Глубинное обучение (группа)

https://github.com/SeanNaren/deepspeech.pytorch/issues/214#issuecomment-356981707 вот ещё по поводу качества дискуссия с хорошим ответом.

GitHub

DS2 accuracy for librispeech · Issue #214 · SeanNaren/deepspeech.pytorch

we try to reproduce the DS2 accuracy of the paper(WER=5.33) on librispeech datatset(1000hour), and we trained 70 epochs on 8x p100 GPU server with default model, and got a accuracy of WER=22.033, C...

источник

10:07пожаловаться #10

ID:347198853 in Глубинное обучение (группа)

а какая у тебя разница между train и test accuracy?

источник

10:16пожаловаться #11

Yuri Baburov in Глубинное обучение (группа)

увы, я сейчас не могу посмотреть данные на том компе, где всё лежит, только послезавтра.

источник

10:18пожаловаться #12

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

а какая у тебя разница между train и test accuracy?

на train я не смотрю WER, смотрю только на val и test.

источник

10:19пожаловаться #13

Yuri Baburov in Глубинное обучение (группа)

Arcady Balandin

да у меня редкий язык. корпуса совсем нет. может есть где вводишь транскрипцию в IPA, а она ее произносит.

ну натренируй просто несколько языков на генерацию в виде IPA, нет?
>Выдирать из Wiktionary транскрипцию ручками это дикость
ну скрипт напиши... не забывай, что до 90% ML/DL — это предобработка данных. модель натренировать — это меньше 50% всех усилий!

источник

15:38пожаловаться #14

Arcady Balandin in Глубинное обучение (группа)

да я спросил может уже есть.

источник

15:38пожаловаться #15

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

на выходе должно быть (161/4, t/2)

уточнил. на выходе с первой свёртки 32 канала длиной по 61, на выходе со второй свёртки 32 канала длиной 21 , т.е. 672 числа, и да, ещё по временной оси time / 4:
torch.Size([BZ, 32, 21, t/4])

p.s. чем удобны свёртки? смотри, фонема "т" имеет паузу в 90 мс, потом происходит взрывной звук (аналогично, но короче — "к"). временная свёртка может сразу это учесть, вместо того, чтобы 5-9 шагов в RNN делать. свёртка может точно определить момент начала и окончания фонемы, итп — двумерные картинки проще распознавать CNN, а вот RNN потом уже учитывает индивидуальные особенности.
но в общем я прикинул, и мне теперь понятно, почему ширину RNN увеличивать со стандартной 800 без увеличения выхода свёртки бесполезно, там узкое место появляется.

источник

15:57пожаловаться #16

Yuri Baburov in Глубинное обучение (группа)

Yuri Baburov

https://github.com/SeanNaren/deepspeech.pytorch очень шустрый, ему нужно 4 часа на эпоху с 2000 часами речи на одной GTX 1080 . за сутки-двое уже отличный результат, ещё сутки-двое дают снижение WER с 8% до 7% на clean, или типа того.

GitHub

SeanNaren/deepspeech.pytorch

Speech Recognition using DeepSpeech2. Contribute to SeanNaren/deepspeech.pytorch development by creating an account on GitHub.

так, я немного обсчитался. у меня WER на clean около 10.5% (CER 2.857%) получается с датасетом в 2000 часов, 26 эпохами обучения и аугментацией после 10 эпохи.

источник

17:17пожаловаться #17

Yuri Baburov in Глубинное обучение (группа)

Yuri Baburov

с чуть-чуть другой версией test.py: Average WER 9.778 Average CER 2.617 , и учится дальше. тяжело отлаживать баги в DL 🙂

источник

18:32пожаловаться #18

2018 July 24

Yuri Baburov in Глубинное обучение (группа)

что, админов у нас нет в этой группе?

источник

09:35пожаловаться #19

ВК

Виталий Канев in Глубинное обучение (группа)

@yuri_baburov дай мне права, буду по мере возможности помогать

источник

11:10пожаловаться #20