Size: a a a

Глубинное обучение (группа)

2018 July 22

YB

Yuri Baburov in Глубинное обучение (группа)
Дай через полчаса доберусь до компа и выведу рантайм параметры
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
то что сжимают картинки это понятно, непонятно зачем использовать фильтры (41,11) и (21,11)
Почитай работу, там рисунок даже есть
источник

NK

ID:347198853 in Глубинное обучение (группа)
читал, но там просто указаны параметры без какого-либо обьяснения
источник

NK

ID:347198853 in Глубинное обучение (группа)
а вообще, у тебя есть интуиция насчет какие изменения модели помогают больше всего? Например, conv layers, or LSTM/GRU cells, or batchnorm, or more layers, etc?
источник

NK

ID:347198853 in Глубинное обучение (группа)
кстати, какой у тебя "комбинированный английский датасет"?
источник

NK

ID:347198853 in Глубинное обучение (группа)
в librispeech 1000 часов, где взять еще 1000?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
в librispeech 1000 часов, где взять еще 1000?
Currently supports AN4, TEDLIUM, Voxforge and LibriSpeech
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
а вообще, у тебя есть интуиция насчет какие изменения модели помогают больше всего? Например, conv layers, or LSTM/GRU cells, or batchnorm, or more layers, etc?
вообще, я уже много экспериментов делал, LSTM > GRU > RNN, но и скорость сильно падает. Аналогично, ширина у LSTM и количество слоёв помогает, но при увеличении ширины падает скорость тренировки и увеличивается время обучения.
источник

KS

Konstantin Sozykin in Глубинное обучение (группа)
Yuri Baburov
вообще, я уже много экспериментов делал, LSTM > GRU > RNN, но и скорость сильно падает. Аналогично, ширина у LSTM и количество слоёв помогает, но при увеличении ширины падает скорость тренировки и увеличивается время обучения.
А свёртки какие используешь?
источник

AB

Arcady Balandin in Глубинное обучение (группа)
А есть ли натренированная модель, которая генерит речь по транскрипции слов, а не по самим словам? Выдирать из Wiktionary транскрипцию ручками это дикость.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Arcady Balandin
А есть ли натренированная модель, которая генерит речь по транскрипции слов, а не по самим словам? Выдирать из Wiktionary транскрипцию ручками это дикость.
а зачем транскрипцию брать? DS2 не нужна транскрипция вообще
источник

AB

Arcady Balandin in Глубинное обучение (группа)
Yuri Baburov
а зачем транскрипцию брать? DS2 не нужна транскрипция вообще
ну ... мне так нужно.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Arcady Balandin
ну ... мне так нужно.
ну возьми словарь с транскрипциями тогда. из Voxforge для англ и для рус, скажем
источник

AB

Arcady Balandin in Глубинное обучение (группа)
да у меня редкий язык. корпуса совсем нет. может есть где вводишь транскрипцию в IPA, а она ее произносит.
источник

NK

ID:347198853 in Глубинное обучение (группа)
Yuri Baburov
Currently supports AN4, TEDLIUM, Voxforge and LibriSpeech
я сейчас тренирую на train-clean-100 + train-clean-360. Насколько поможет увеличение датасета?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Konstantin Sozykin
А свёртки какие используешь?
я изначально экспериментировал со своими аугментациями, свёртками, Dropout, параметрами фурье. но они особо преимущества не дают -- всё в языковую модель и разнообразие в датасете упирается.
источник

NK

ID:347198853 in Глубинное обучение (группа)
то есть у меня цель это результат на test-clean
источник

YB

Yuri Baburov in Глубинное обучение (группа)
ID:347198853
я сейчас тренирую на train-clean-100 + train-clean-360. Насколько поможет увеличение датасета?
чем больше датасет, тем выше качество. бери все 2000 часов и простые аугментации из пакета, получишь WER около 7% на test-clean .
источник

YB

Yuri Baburov in Глубинное обучение (группа)
я ещё хочу 430 часов из mozilla взять, давайте просто потом всё для английского выложу в open-source вместе с натренированными моделями.
источник

YB

Yuri Baburov in Глубинное обучение (группа)
https://github.com/SeanNaren/deepspeech.pytorch очень шустрый, ему нужно 4 часа на эпоху с 2000 часами речи на одной GTX 1080 . за сутки-двое уже отличный результат, ещё сутки-двое дают снижение WER с 8% до 7% на clean, или типа того.
источник