Size: a a a

Глубинное обучение (группа)

2017 July 12

YB

Yuri Baburov in Глубинное обучение (группа)
где-то с железом всё хорошо, где-то нет
источник
2017 July 13

IU

Ivan U in Глубинное обучение (группа)
А ты видел публикации где у такой сети есть память например?
источник

YB

Yuri Baburov in Глубинное обучение (группа)
у shazam достаточно низкие требования к железу
источник

EM

Evgenii Makarov in Глубинное обучение (группа)
Val
Спектрограмма содержит достаточно информации, чтобы восстановить сигнал, при определенных довольно слабых требованиях на окно и размер хопа
А расскажите как вы из спектральной плотности мощности фазу восстановите? Может, в аудио какие трюки есть, я правда не знаю
источник

EM

Evgenii Makarov in Глубинное обучение (группа)
Дима Ульянов что то рассказывал, но я забыл уже
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Ivan U
А ты видел публикации где у такой сети есть память например?
да, но обычно не для речи.
источник

IU

Ivan U in Глубинное обучение (группа)
Все что я видел было просто сверточные сети
источник

V

Val in Глубинное обучение (группа)
Evgenii Makarov
А расскажите как вы из спектральной плотности мощности фазу восстановите? Может, в аудио какие трюки есть, я правда не знаю
Алгоритм Гриффина-Лима
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Val
Алгоритм Гриффина-Лима
для голоса. но не для звука в целом.
источник

V

Val in Глубинное обучение (группа)
И есть строгие теоремы, что спектрограмма избыточна
источник

V

Val in Глубинное обучение (группа)
Yuri Baburov
для голоса. но не для звука в целом.
Почему же?
источник

IU

Ivan U in Глубинное обучение (группа)
Yuri Baburov
да, но обычно не для речи.
Так вроде как раз не про речь а про музыку говорим
источник

V

Val in Глубинное обучение (группа)
Ссылки предоставлю сейчас, изучал немного это вопрос как раз с Димой Ульяновым
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Val
Почему же?
я оригинальную статью не читал, но даже просто по оценкам количества информации сложнее будет восстановить насыщенную музыку, чем голос.
источник

V

Val in Глубинное обучение (группа)
Там нет никаких предположений о природе звука
источник

V

Val in Глубинное обучение (группа)
https://arxiv.org/abs/1508.02820.pdf про достаточность спектрограммы для восстановления сигнала
источник

V

Val in Глубинное обучение (группа)
ну и оригинальная статья Гриффина и Лима http://sci-hub.cc/10.1109/TASSP.1984.1164317
источник

V

Val in Глубинное обучение (группа)
да, алгоритм ГЛ не идеален и даёт металлический голос, например
источник

V

Val in Глубинное обучение (группа)
есть быстрые модификации, которые, субъективно, дают более хорошее качество https://lts2.epfl.ch/unlocbox/notes/unlocbox-note-007.pdf
источник

YB

Yuri Baburov in Глубинное обучение (группа)
Val
Там нет никаких предположений о природе звука
"The algorithm developed in this paper
has been applied to the time-scale modification of speech. The resulting system generates very high-quality speech, and appears to be better in performancc than any existing method"
источник