Size: a a a

Распознавание речи

2019 May 14

II

Igor Ishin in Распознавание речи
Andrei Obyortyshev
Возникла пара вопросов про базовые вещи, хочу уточнить:
Закреплённая модель тренирована же на сэмплах 8/16 кгц? И, сответственно, 16кгцовые входные данные будут распознаваться лучше, чем какие нибудь 44100?
Если не ошибаюсь, он никак не будет распознавать 44100, как и 16
источник

AO

Andrei Obyortyshev in Распознавание речи
Igor Ishin
Если не ошибаюсь, он никак не будет распознавать 44100, как и 16
Получается, мы либо даунгрейдим запись до 8кГц, либо тренируем модель на 44,1 кГц? :)
источник

AO

Andrei Obyortyshev in Распознавание речи
Но я полагаю сэмплов в 44100 для тренировки найти не очень реально
источник

II

Igor Ishin in Распознавание речи
Andrei Obyortyshev
Но я полагаю сэмплов в 44100 для тренировки найти не очень реально
Mini_librispeech , о котором Николай говорил учит на 16кГц, и распознает такие же, а преобразовать тем же ffmpeg можно в обе стороны, не знаю насколько это негативно влияет на процесс обучения
источник

RA

Robert Arzin in Распознавание речи
Andrei Obyortyshev
Но я полагаю сэмплов в 44100 для тренировки найти не очень реально
Крайне тяжело
источник

NS

Nikolay Shmyrev in Распознавание речи
Robert Arzin
Крайне тяжело
Почему тяжело-то? С ютуба можно скачать, вон товарищи https://github.com/snakers4/open_stt накачили и продают теперь. Другое дело, что для распознавания это не особо полезно, разницы между 16 и 44 в точности никакой. Только если на стереосигнале тренировать.
источник
2019 May 17

RA

Robert Arzin in Распознавание речи
Nikolay Shmyrev
Почему тяжело-то? С ютуба можно скачать, вон товарищи https://github.com/snakers4/open_stt накачили и продают теперь. Другое дело, что для распознавания это не особо полезно, разницы между 16 и 44 в точности никакой. Только если на стереосигнале тренировать.
Продают?
источник

AZ

Alexey Zholobov in Распознавание речи
> Мы выкладываем датасет под двойной лицензией: для некоммерческих целей мы предлагаем лицензию cc-by-nc 4.0, для коммерческих целей — использование после договорённости с нами.
https://m.habr.com/ru/post/450760/
источник

AZ

Al Zatv in Распознавание речи
А с владельцами контента на ютюбе, на сайте пранкеров и во всех прочих местах вы договорились? Или в договоре все подобные риски учтены и взяты на вас?
источник

AZ

Al Zatv in Распознавание речи
Почитал комментарии вот здесь:  https://m.habr.com/ru/post/450760/comments/ . Мдаа. Я не юрист, но выглядит это не очень надежно. И еще печально, что если ты это купил,то это свидетельство тому, что ты используешь этот датасет в коммерческих целях. Так ты можешь стать мишенью для исков правообладателей.
источник

AZ

Al Zatv in Распознавание речи
Я имею в виду, настоящих правообладателей:)
источник

NS

Nikolay Shmyrev in Распознавание речи
Al Zatv
Почитал комментарии вот здесь:  https://m.habr.com/ru/post/450760/comments/ . Мдаа. Я не юрист, но выглядит это не очень надежно. И еще печально, что если ты это купил,то это свидетельство тому, что ты используешь этот датасет в коммерческих целях. Так ты можешь стать мишенью для исков правообладателей.
Глубинный народ не признаёт права на информацию, выложенную в открытый доступ 😉
источник

AU

Alex Usov in Распознавание речи
😂
источник

AZ

Al Zatv in Распознавание речи
Ну дык это, лежит же, грех же не взять:)
источник

NS

Nikolay Shmyrev in Распознавание речи
Ну это спорный вопрос, персональную информацию многие собирают, например. И не считается это зазорным. Тут тоже у правообладателя не возникает убытков.
источник

AU

Alex Usov in Распознавание речи
Вообще непонятно как можно доказать на каких данных была обучена модель
источник

AU

Alex Usov in Распознавание речи
Всем привет!
источник

AU

Alex Usov in Распознавание речи
Я уже давно добавился. Вчера наконец дочитал всю историю чата...
источник

NS

Nikolay Shmyrev in Распознавание речи
Alex Usov
Вообще непонятно как можно доказать на каких данных была обучена модель
Запросто можно доказать. Можно вставлять отметки, вроде https://www.microsoft.com/en-us/research/uploads/prod/2018/11/2019ASPLOS_Final_DeepSigns.pdf
источник

AZ

Al Zatv in Распознавание речи
Alex Usov
Вообще непонятно как можно доказать на каких данных была обучена модель
Ну вот когда ты купил,ты подставился. Наверное, выкрутишься ("собирался использовать и купил, но потом передумал, базу удалил и списал расходы в убыток"). Но зачем...
источник