Телеграмм чат группы ru_deep_learning страница 210

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Глубинное обучение (группа)

219 membersпожаловаться на группу

2018 July 20

NK

ID:347198853 in Глубинное обучение (группа)

как споткнулся?

источник

23:54пожаловаться #1

2018 July 21

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

ребята, подскажите насчет speech recognition: я там вижу разные виды audio processing: mfcc, filter banks, including delta+ delta-delta. Получается очень разный размер инпута: от (timesteps, 13) with mfcc, до (timesteps, 39) или даже (timesteps, 161) for linear spectrograms. Это все для LibriSpeech на DeepSpeech моделях.

Да, всё так. И в чём проблема?

источник

06:42пожаловаться #2

2018 July 22

NK

ID:347198853 in Глубинное обучение (группа)

Да, всё так. И в чём проблема?

так какой из них использовать?

источник

06:17пожаловаться #3

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

так какой из них использовать?

Любой. Большая разрешающая способность лишь чуть-чуть увеличивает качество.

источник

07:01пожаловаться #4

NK

ID:347198853 in Глубинное обучение (группа)

а не в курсе какой использовали в deepspeech статьях?

источник

07:03пожаловаться #5

YB

Yuri Baburov in Глубинное обучение (группа)

Любой. Большая разрешающая способность лишь чуть-чуть увеличивает качество.

Буквально на доли процента в чистых условиях, на пару процентов в шумных, если есть много данных

источник

07:03пожаловаться #6

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

а не в курсе какой использовали в deepspeech статьях?

Ты возьми просто репозиторий с deep speech 2 на pytorch

источник

07:03пожаловаться #7

YB

Yuri Baburov in Глубинное обучение (группа)

Ты возьми просто репозиторий с deep speech 2 на pytorch

https://github.com/SeanNaren/deepspeech.pytorch

SeanNaren/deepspeech.pytorch

Speech Recognition using DeepSpeech2. Contribute to SeanNaren/deepspeech.pytorch development by creating an account on GitHub.

источник

07:04пожаловаться #8

YB

Yuri Baburov in Глубинное обучение (группа)

У меня на комбинированном английском датасете в 2000 часов WER порядка 18% что-ли получился на стандартных параметрах нейросети (2хCNN, 5xGRUx800)

источник

07:06пожаловаться #9

NK

ID:347198853 in Глубинное обучение (группа)

а как называется то что они делают тут: https://github.com/SeanNaren/deepspeech.pytorch/blob/master/data/data_loader.py#L116

SeanNaren/deepspeech.pytorch

Speech Recognition using DeepSpeech2. Contribute to SeanNaren/deepspeech.pytorch development by creating an account on GitHub.

источник

07:06пожаловаться #10

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

а как называется то что они делают тут: https://github.com/SeanNaren/deepspeech.pytorch/blob/master/data/data_loader.py#L116

SeanNaren/deepspeech.pytorch

Speech Recognition using DeepSpeech2. Contribute to SeanNaren/deepspeech.pytorch development by creating an account on GitHub.

Дискретное преобразование Фурье, оно же FFT

источник

07:07пожаловаться #11

NK

ID:347198853 in Глубинное обучение (группа)

это часть mfcc?

источник

07:08пожаловаться #12

NK

ID:347198853 in Глубинное обучение (группа)

я просто еще плохо шарю в этих методах

источник

07:09пожаловаться #13

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

это часть mfcc?

Нет, вместо mfcc там нейросеть изобретает его аналог

источник

07:09пожаловаться #14

YB

Yuri Baburov in Глубинное обучение (группа)

У mfcc на выходе 13 единиц. И ещё чаще берут две дельты, получая 39 входов

источник

07:09пожаловаться #15

NK

ID:347198853 in Глубинное обучение (группа)

насколько я понимаю, в mfcc тоже используется FFT как первый шаг

источник

07:09пожаловаться #16

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

насколько я понимаю, в mfcc тоже используется FFT как первый шаг

Ага. А потом делаются суммы по частотам.

источник

07:10пожаловаться #17

NK

ID:347198853 in Глубинное обучение (группа)

так в чем главное различие между mfcc и тем что они здесь делают?

источник

07:11пожаловаться #18

YB

Yuri Baburov in Глубинное обучение (группа)

ID:347198853

так в чем главное различие между mfcc и тем что они здесь делают?

MFCC настроен на человеческий голос, а нейросеть может выделять голос даже из больших шумов.

источник

07:12пожаловаться #19

YB

Yuri Baburov in Глубинное обучение (группа)

Если у тебя шумов мало, работают одинаково. Если много шумов, фоновая музыка, или эхо есть, то нейросеть начинает лучше работать.

источник

07:13пожаловаться #20