¿Cómo puedo cambiar la pronunciación de Alexa de una palabra específica en una habilidad?

A veces, al desarrollar una habilidad de Alexa y programar las respuestas de mi servicio, Alexa pronuncia mal una de las palabras en mi respuesta, confundiendo al usuario.

Por ejemplo, si quisiera que Alexa dijera una palabra en un idioma diferente (tal vez por una habilidad de aprendizaje de idiomas), ¿cómo puedo decirle a Alexa cómo pronunciar la palabra correctamente, en lugar de aplicar las reglas de pronunciación en inglés?

Esto también se aplica a palabras en inglés con pronunciaciones extrañas; ¿Hay alguna manera de dictarle a Alexa la pronunciación correcta o reemplazarla con un sonido personalizado que sea correcto? ¿Debo usar un marcado adicional o una llamada a la API?

alexa

— Aurora0001
fuente

Alexa admite SSML , que es un lenguaje de marcado similar a XML para el habla. En lugar de devolver texto sin formato de su servicio, puede usar respuestas SSML. La <phoneme>etiqueta es lo que necesitas en particular:

fonema

Proporciona una pronunciación fonémica / fonética para el texto contenido. Por ejemplo, las personas pueden pronunciar palabras como "pacana" de manera diferente.

Para palabras en inglés (especialmente inglés de EE. UU.), Alexa debería poder pronunciar cualquier palabra si le da la pronunciación fonética correcta:

Las siguientes tablas enumeran los símbolos compatibles para usar con la etiqueta de fonema. Estos símbolos brindan cobertura total para los sonidos del inglés de EE. UU. Tenga en cuenta que muchos idiomas que no son inglés requieren el uso de símbolos no incluidos en esta lista, que no son compatibles. Se desaconseja el uso de símbolos no incluidos en esta lista, ya que puede dar como resultado una síntesis de voz subóptima.

^{Citas de la documentación de Amazon en SSML.}

Aquí hay un ejemplo de darle a Alexa una pronunciación específica:

<speak>
    <phoneme alphabet="ipa" ph="hɛˈləʊ̯">Hello</phoneme>.
    <phoneme alphabet="ipa" ph="bɔ̃.ˈʒuʁ">Bonjour</phoneme>.
</speak>

La <phoneme>etiqueta admite los alfabetos fonéticos IPA y X-SAMPA . Por lo general, puede encontrar la ortografía de IPA para cualquier palabra en Wiktionary o mediante Google.

Para mensajes más largos, puede ser mejor usar la <audio>etiqueta y grabar una voz personalizada:

La etiqueta de audio le permite proporcionar la URL de un archivo MP3 que el servicio de Alexa puede reproducir mientras presenta una respuesta. Puede usar esto para incrustar audio corto y pregrabado en la respuesta de su servicio. Por ejemplo, podría incluir efectos de sonido junto con sus respuestas de texto a voz, o proporcionar respuestas usando una voz asociada con su marca.

^{Citado de la documentación de Amazon en <audio>.}

— Aurora0001
fuente