Думаю все речераспознающие движки в конечном итоге просто заточенные под аудиторию решения. Т.е. У Алисы, у Сири и у всех остальных - своя целевая аудитория. Разработчики по большей части изучают на тестовых группах паттерны и либо тупо if-ми реализуют вау-фишки либо там нейросеть это умеет (что в принципе подтвержается всякими генераторами текста).
да и сетей же там дофига. сначала речь распознать, потом понять че хочет пользователь, потом сгенерировать ответ (чего не умеет сири), потом уже озвучить его. 4 различных черных ящика