Для телефонных записей (2 канала, 8 kHz) дает 60% wer на основе 10 размеченных записей. Сейчас адаптирую языковую модель но кажется что еще мешает шум.
Для телефонных записей (2 канала, 8 kHz) дает 60% wer на основе 10 размеченных записей. Сейчас адаптирую языковую модель но кажется что еще мешает шум.