Size: a a a

Глубинное обучение (группа)

2018 July 22

NK

ID:347198853 in Глубинное обучение (группа)
мне к сожалению нужно на tensorflow сделать
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ну тогда бери версию от мозиллы.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
источник

YB

Yuri Baburov in Глубинное обучение (группа)
я её не пробовал, и лишний геморрой я не люблю, соответственно, в чём отличия версий я не знаю.
знаю, что версия для TF умеет читать MP3, а про версию для pytorch я не знаю.
(432 часа от mozilla common voice идут в mp3)
источник

YB

Yuri Baburov in Глубинное обучение (группа)
вообще, такой нюанс по количеству данных:
рост качества отмечается примерно до 6000 часов, потом уже роста почти нет.
дальше качество нужно языковой моделью улучшать -- ещё на 10% вроде бы можно в среднем ошибку уменьшить.
источник

NK

ID:347198853 in Глубинное обучение (группа)
ок, то есть 460 часов это недостаточно
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ну как недостаточно... я сначала на мелких датасетах учил, все по очереди, с AN4, потом Voxforge.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ну будет поменьше точность, но не критично. плохо то, что она будет оверфитить на конкретные голоса.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
соответственно, на меньшем корпусе натренируешь, у тебя будет там низкий WER, но при проверке его на большем корпусе WER вырастет для сильно отличающихся голосов.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
https://github.com/SeanNaren/deepspeech.pytorch/issues/214#issuecomment-356981707 вот ещё по поводу качества дискуссия с хорошим ответом.
источник

NK

ID:347198853 in Глубинное обучение (группа)
а какая у тебя разница между train и test accuracy?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
увы, я сейчас не могу посмотреть данные на том компе, где всё лежит, только послезавтра.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
а какая у тебя разница между train и test accuracy?
на train я не смотрю WER, смотрю только на val и test.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Arcady Balandin
да у меня редкий язык. корпуса совсем нет. может есть где вводишь транскрипцию в IPA, а она ее произносит.
ну натренируй просто несколько языков на генерацию в виде IPA, нет?
>Выдирать из Wiktionary транскрипцию ручками это дикость
ну скрипт напиши... не забывай, что до 90% ML/DL — это предобработка данных. модель натренировать — это меньше 50% всех усилий!
источник

AB

Arcady Balandin in Глубинное обучение (группа)
да я спросил может уже есть.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
на выходе должно быть (161/4, t/2)
уточнил. на выходе с первой свёртки 32 канала длиной по 61, на выходе со второй свёртки 32 канала длиной 21 , т.е. 672 числа, и да, ещё по временной оси time / 4:
torch.Size([BZ, 32, 21, t/4])

p.s. чем удобны свёртки? смотри, фонема "т" имеет паузу в 90 мс, потом происходит взрывной звук (аналогично, но короче — "к"). временная свёртка может сразу это учесть, вместо того, чтобы 5-9 шагов в RNN делать. свёртка может точно определить момент начала и окончания фонемы, итп — двумерные картинки проще распознавать CNN, а вот RNN потом уже учитывает индивидуальные особенности.
но в общем я прикинул, и мне теперь понятно, почему ширину RNN увеличивать со стандартной 800 без увеличения выхода свёртки бесполезно, там узкое место появляется.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Yuri Baburov
https://github.com/SeanNaren/deepspeech.pytorch очень шустрый, ему нужно 4 часа на эпоху с 2000 часами речи на одной GTX 1080 . за сутки-двое уже отличный результат, ещё сутки-двое дают снижение WER с 8% до 7% на clean, или типа того.
так, я немного обсчитался. у меня WER на clean около 10.5% (CER 2.857%) получается с датасетом в 2000 часов, 26 эпохами обучения и аугментацией после 10 эпохи.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Yuri Baburov
так, я немного обсчитался. у меня WER на clean около 10.5% (CER 2.857%) получается с датасетом в 2000 часов, 26 эпохами обучения и аугментацией после 10 эпохи.
с чуть-чуть другой версией test.py: Average WER 9.778       Average CER 2.617 , и учится дальше. тяжело отлаживать баги в DL 🙂
источник
2018 July 24

YB

Yuri Baburov in Глубинное обучение (группа)
что, админов у нас нет в этой группе?
источник

ВК

Виталий Канев in Глубинное обучение (группа)
@yuri_baburov дай мне права, буду по мере возможности помогать
источник