Телеграмм чат группы ru_deep

а вообще, у тебя есть интуиция насчет какие изменения модели помогают больше всего? Например, conv layers, or LSTM/GRU cells, or batchnorm, or more layers, etc?

источник

07:36пожаловаться #4

NK

ID:347198853 in Глубинное обучение (группа)

кстати, какой у тебя "комбинированный английский датасет"?

источник

07:38пожаловаться #5

NK

ID:347198853 in Глубинное обучение (группа)

в librispeech 1000 часов, где взять еще 1000?

источник

07:38пожаловаться #6

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

в librispeech 1000 часов, где взять еще 1000?

Currently supports AN4, TEDLIUM, Voxforge and LibriSpeech

источник

09:44пожаловаться #7

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

а вообще, у тебя есть интуиция насчет какие изменения модели помогают больше всего? Например, conv layers, or LSTM/GRU cells, or batchnorm, or more layers, etc?

вообще, я уже много экспериментов делал, LSTM > GRU > RNN, но и скорость сильно падает. Аналогично, ширина у LSTM и количество слоёв помогает, но при увеличении ширины падает скорость тренировки и увеличивается время обучения.

источник

09:46пожаловаться #8

KS

Konstantin Sozykin in Глубинное обучение (группа)

Yuri Baburov

вообще, я уже много экспериментов делал, LSTM > GRU > RNN, но и скорость сильно падает. Аналогично, ширина у LSTM и количество слоёв помогает, но при увеличении ширины падает скорость тренировки и увеличивается время обучения.

А свёртки какие используешь?

источник

09:47пожаловаться #9

AB

Arcady Balandin in Глубинное обучение (группа)

А есть ли натренированная модель, которая генерит речь по транскрипции слов, а не по самим словам? Выдирать из Wiktionary транскрипцию ручками это дикость.

источник

09:47пожаловаться #10

YB

Yuri Baburov in Глубинное обучение (группа)

Arcady Balandin

А есть ли натренированная модель, которая генерит речь по транскрипции слов, а не по самим словам? Выдирать из Wiktionary транскрипцию ручками это дикость.

а зачем транскрипцию брать? DS2 не нужна транскрипция вообще

источник

09:48пожаловаться #11

AB

Arcady Balandin in Глубинное обучение (группа)

Yuri Baburov

а зачем транскрипцию брать? DS2 не нужна транскрипция вообще

ну ... мне так нужно.

источник

09:48пожаловаться #12

YB

Yuri Baburov in Глубинное обучение (группа)

Arcady Balandin

ну ... мне так нужно.

ну возьми словарь с транскрипциями тогда. из Voxforge для англ и для рус, скажем

источник

09:49пожаловаться #13

AB

Arcady Balandin in Глубинное обучение (группа)

да у меня редкий язык. корпуса совсем нет. может есть где вводишь транскрипцию в IPA, а она ее произносит.

источник

09:50пожаловаться #14

NK

ID:347198853 in Глубинное обучение (группа)

Yuri Baburov

Currently supports AN4, TEDLIUM, Voxforge and LibriSpeech

я сейчас тренирую на train-clean-100 + train-clean-360. Насколько поможет увеличение датасета?

источник

09:50пожаловаться #15

YB

Yuri Baburov in Глубинное обучение (группа)

Konstantin Sozykin

А свёртки какие используешь?

я изначально экспериментировал со своими аугментациями, свёртками, Dropout, параметрами фурье. но они особо преимущества не дают -- всё в языковую модель и разнообразие в датасете упирается.

источник

09:50пожаловаться #16

NK

ID:347198853 in Глубинное обучение (группа)

то есть у меня цель это результат на test-clean

источник

09:51пожаловаться #17

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

я сейчас тренирую на train-clean-100 + train-clean-360. Насколько поможет увеличение датасета?

чем больше датасет, тем выше качество. бери все 2000 часов и простые аугментации из пакета, получишь WER около 7% на test-clean .

источник

09:53пожаловаться #18

YB

Yuri Baburov in Глубинное обучение (группа)

я ещё хочу 430 часов из mozilla взять, давайте просто потом всё для английского выложу в open-source вместе с натренированными моделями.

источник

09:54пожаловаться #19

YB

Yuri Baburov in Глубинное обучение (группа)

https://github.com/SeanNaren/deepspeech.pytorch очень шустрый, ему нужно 4 часа на эпоху с 2000 часами речи на одной GTX 1080 . за сутки-двое уже отличный результат, ещё сутки-двое дают снижение WER с 8% до 7% на clean, или типа того.

GitHub

SeanNaren/deepspeech.pytorch

Speech Recognition using DeepSpeech2. Contribute to SeanNaren/deepspeech.pytorch development by creating an account on GitHub.

источник

09:56пожаловаться #20