Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 May 05

ES

Evgeny Smirnov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Товарищи!
Собираюсь выложить на arxiv.org статью, может кто-нибудь эндорснуть в cs.CV?
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кинь в личку пдфку и линк на эндорс
источник

ES

Evgeny Smirnov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Спасибо!
источник

UT

Unknown T. in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
добрый день! насколько сейчас актуально распознавание речи с помощью hidden markov models?
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Неа, устарело
источник

UT

Unknown T. in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
А что используют сейчас?
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Не нашёл ничего подходящего? Тоже интересно
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Какой язык?
источник

UT

Unknown T. in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Без разницы, интересуют сами алгоритмы распознавания речи
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
ну эти два решения и трейдоф между ними все в целом описывают. Можно большую дату разбить на несколько кусков, и их в lmdb и периодически их тасовать и в ручном режиме управлять тренировкой и датой.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
то есть натренироваться на одном куске, потом на другом, потом на третьем, потом перетасовать и опять.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
мапить и анмапить
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
просто у GPU нет свап системы, вряд ли тут еще что то умное придумаешь мне кажется.
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vosk, sova, wav2vec, nemo, kaldi
источник

UT

Unknown T. in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это всё фреймворки. А какие технологии используют эти фреймворки?
источник

TN

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Deep learning)
По энкодерам (аудиомодель) сейчас иногда используют TDNN, некоторые работы опираются на пару сверток + Transformer Encoder, кто-то 1D свертки использует (CNN получается, только на 1D свертках), вот нынче модно Conformer использовать. Для декодирования - да к чему душа у кого лежит, но чаще встречал LSTM и Transformer Decoder. Лоссы - кросс энтропия и CTC loss. Аугментации - SpecAugment наиболее важно. Лингвистические модели - чаще Transformer, иногда - LSTM. Можно и без них. Beam Search в декодировании, + эвристики на окончание декодирования. Разбиение текста обычно через Byte Pair Encoding.
источник

UT

Unknown T. in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
спасибо большое, буду изучать!
источник

TN

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну и данные у всех (за редким исключением) - Mel Spectrogram на 80 значений с шагом 10ms
источник

UT

Unknown T. in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Т.е. речь в аудиоформате разбивается на фрагменты по 10ms, а потом трансформируется как описано тут? https://en.wikipedia.org/wiki/Mel-frequency_cepstrum
источник

TN

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
нет
источник