Разобрали вдвоём с
@wooferclaw протокол Алексы, сделали пару тестовых навыков.
Что хуже, чем у Алисы:
1. Нельзя прочитать всё сообщение пользователя. Разработчик должен в админ-панели сначала задать наборы ключевых слов, которые будет ловить его навык, и может читать значения только по этим ключевым словам. Навык при этом не пришлёт всю команду, а пришлёт событие в стиле "Пользователь сказал что-то, что пододшо под набор включевых фраз номер три".
2. На экране не отображается ни распознанный текст, ни полученный текст. Общение только голосом даже с телефона. Понятно, почему — флагманский продукт Амазоне это именно колонка, подозреваю тут ситуация обратная с Яндексом. Если у Яндекса 1% людей пользуется Станцией, а все остальные приложением, то у Амазона скорее всего 1% людей пользуется приложением, а остальные колонкой.
3. Нет кнопок, невозможно подсказать пользователю варианты дальнейших действий.
Что лучше, чем у Алисы:
1. Несколько разработчиков могут админить один и тот же навык.
2. Можно запускать на колонке и в приложении без какой-то предварительной модерации.
3. Если возникла ошибка, то Алекса присылает на вебхук дополнительный запрос с описанием ошибки.
4. Очень богатый набор возможностей: можно запускать музыку и использовать другие фичи платформы, то есть частично подавать из навыка команды самой Алексе.
5. Целый отдельный язык для отображения информации на дисплее для колонки подключённой к телевизору.
6. Очень богатый язык разметки TTS (у них он называется SSML — Speech Synthesis Markup Language). У пауз можно задавать длительность до 10 секунд, аудиофайлы можно подтягивать прямо из сети по адресу на mp3, можно на лету переключаться между языками и между голосами, использовать эффекты тона (например шёпот или выделение повышенным тоном), переключать фонемы.
7. Монетизация, отдельные функции и виды команд для этого.
8. Своего рода конструктор диалогов прямо в админ-панели.
9. Нет кнопок. Разработчик вынужден лучше проектировать сценарии и диалоги, а не просто копировать чатботов с других платформ.