¿Por qué la mayoría de los asistentes inteligentes ofrecen poca o ninguna personalización de la palabra de inicio?


14

La mayoría de las marcas de asistentes inteligentes , como Amazon Echo y Google Home, ofrecen muy poca personalización para la palabra de activación (la frase que utiliza para activar el dispositivo para que lo escuche).

Por ejemplo, Alexa solo ofrece tres opciones y Google Home solo admite 'OK Google' . Muchos usuarios parecen estar interesados ​​en la idea de palabras de activación personalizadas, sin embargo, ninguna de las principales marcas ha agregado soporte.

¿Hay alguna razón técnica para restringir la personalización de la palabra de activación, o es simplemente una opción de marca?

He leído acerca de la motivación de Google para usar 'OK Google' , lo que sugiere que la idea de la marca podría ser cierta, pero también parece que el reconocimiento de palabras de activación no es muy preciso , tal vez indicando una razón técnica. ¿Alguien podría aclarar qué factor es la razón principal?


2
Una cosa para recordar es que el procesamiento para despertar así debe hacerse en un dominio de muy baja potencia y siempre activo: a menudo hay hardware especializado disponible para esta tarea en algunos de los SoC más grandes (especialmente aquellos utilizados en teléfonos), y supongo que los coeficientes del filtro / otros parámetros se calculan cuidadosamente y se cargan en ese hardware. Olvidé en qué SoC Echo se ejecuta, pero imagino que hay un filtro similar presente. El nombre de la clase de algoritmos se me escapa en este momento
Krunal Desai

Respuestas:


12

Sí, hay varias razones.

Esta publicación de blog lo explica sobre el eco y la palabra de activación Alexa. Lo resumiré un poco.

El reconocimiento de palabras Wake se realiza localmente y en tiempo real . Eso limita las longitudes de la palabra de activación debido a limitaciones de procesamiento obvias. Además, los usuarios no quieren recitar un poema para activar el asistente inteligente. Por lo tanto, tiene que ser corto.

Tiene que funcionar con una precisión de casi el 100% cuando se llama y tampoco se reconoce con esa certeza cuando no se solicita. Eso genera problemas y también genera una longitud mínima para las palabras de activación. La elección de Amazon para permitir Echo es bastante sorprendente ya que son solo dos sílabas .

Si observamos a los sospechosos habituales, tenemos Alexa (3 sílabas), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) y Hey Siri (3). Todos los gigantes de la industria casi coinciden en que tres son una buena elección de sílabas.

Por extraño que parezca, la palabra de despertador más deseada "computadora" también tiene tres sílabas y cumpliría con ese requisito fácilmente. Tampoco es una marca registrada.

Como nos dice el blog, y la razón, queremos evitar los falsos positivos. Veamos qué tan establecidas están las palabras Computer, Siri, Cortana y Alexa. Este es el corpus de libros de Google de 2008.

La computadora ngram eclipsa a alexa y siri

Exactamente, Siri y Alexa están prácticamente en línea con la computadora y Cortana da un error. Extraviado. Tiene sentido ya que el corpus es de 2008. Para darnos una perspectiva más de por qué la computadora es una palabra de estela terrible, otro gráfico.

ngram de computadora versus otras palabras

Este Ngram muestra los dos nombres de bebé más populares de EE. UU. De 2016 (por moneda), así como Tom y Dave también en línea plana contra la computadora . Queen, el baloncesto y la policía logran registrarse correctamente. De todos modos, esto nos da una idea de por qué Computer, Earl Grey, Hot no se ha permitido hasta ahora. La gente usa la palabra computadora con demasiada frecuencia.

Una cosa más sobre los falsos positivos. Alexa rima con prácticamente nada que uno diría.

19 cosas que riman con alexa

La computadora rima con 74 cosas.


1
... y esto explica por qué Scotty no pudo despertar la computadora .
Ghanima

2
"Voy a tener sexo con un pájaro ... ¡No, no tú Alexa!"
David dice que reinstale a Mónica el

1
"OK Google" son cuatro sílabas ("oh kay goo gull"), no tres, y mucho más que esa cantidad de fonemas.
Monty Harder

1
Alexa es un maldito nombre ... Personalmente conozco a 2 personas con ese nombre, uno de los cuales es primo. El eco se usa como está en mi idioma, y ​​a menudo digo "hay un eco" cuando hay un eco en el teléfono o algo así. Y amazon es el nombre de una tribu de río / vieja que un chico en juegos de rol como yo dice con relativa frecuencia. Realmente lo estropearon.
Olivier Grégoire

2
No estoy seguro de comprar esa explicación de por qué la palabra "computadora" no funcionaría. La palabra en sí no es lo único que se reconoce. Ser la primera palabra de un enunciado y ser seguido por una pausa también son piezas importantes de información que identifican la palabra de comando.
Kevin Krumwiede

2

¿Hay alguna razón técnica para restringir la personalización de wake word?

Cuando el dispositivo asistente no está en uso, el procesador de la aplicación (creo que ARM en el caso de Alexa y Google Home) se suspende y se lleva al estado de potencia más bajo posible. La detección de la palabra de activación se deja a un DSP muy eficiente que escucha el ruido / las voces ambientales y ejecuta un algoritmo para decidir si hay una coincidencia con la palabra de activación. Si encuentra una coincidencia con buena cantidad de confianza, DSP activa el núcleo ARM para continuar con el resto del procesamiento.

Ahora, dado que el objetivo es ser energéticamente eficiente, el DSP en cuestión ejecuta el algoritmo y almacena el patrón de plantilla en la memoria del chip en lugar de la RAM principal incorporada. Esto permite que el sistema incluso lleve la RAM DDR al estado de energía más bajo.

Dado que el DSP tiene varias cosas clave que hacer y muy poca memoria en el chip, las palabras de activación del Asistente se limitan a algunas de las más selectas que el algoritmo puede igualar con un alto grado de confianza.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.