Приступаю к проекту со звуком: выбираю между dnn на tf(lstm+ctc/ivector/wavenet )и классикой в kaldi(hmm/gmm возможно g2p) что из этого лучше подойдет для записей телефонных разговоров в mp3 ? Их у меня под 30 гигов, во владенях одна gtx 1060. Еще вопрос по разметке- можно ли ее как то автоматизировать, возможно частияно справиться гугл спич? Может быть проблема решаетс с помощью обучения на других рзмеченных датасетах с сской речью?
Новичковый вопрос для java, но если я создаю recognizer не в MainAnctivity, а в другом классе, то нужно ли там писать onDesrtoy() и вызывать его в onDestroy() из MainActivity или есть человеческий способ?