¿Cómo me reconoce Siri diciendo "Hola Siri"?


8

Estoy tratando de entender cómo mi iPhone puede escuchar continuamente para mí diciendo Hey Siri, Alexa, Hey Cortanao Okay Googlesin agotar rápidamente la batería de mi hacia abajo.

Me imaginé dos tipos de algoritmo. Uno que registra un segmento de tiempo como segmentos de 10 ms de ancho cada 200 ms y realiza una detección sincrónica en frecuencias específicas. Sin embargo, estos parámetros dependen en gran medida de la característica de mi voz. Además, seguirá consumiendo mucha energía de la CPU para intentar continuamente hacer coincidir un Hey Sirien medio de la nada.

¿Qué tipo de algoritmo / implementación eficiente de bajo consumo (hardware o software) puede realizar dicha tarea?

Creo que esto está relacionado de alguna manera con esta patente: https://www.google.com/patents/US20160253997

Leí algunos artículos que hablan sobre modelos ocultos de Markov, pero dudo que sea un enfoque de muy baja potencia.

Respuestas:


6

"Ok Google" se describe en muchas publicaciones de Google

Control automático de ganancia y entrenamiento de varios estilos para la detección de palabras clave robustas de tamaño reducido con redes neuronales profundas

Redes neuronales convolucionales para la detección de palabras clave de huella pequeña

Se basa en DNN específicamente entrenado para la frase clave y funciona realmente rápido. No consume mucha energía incluso en dispositivos móviles.

El manchado de Alexa es implementado por los mismos chicos y está disponible como Snowboy

ACTUALIZACIÓN: Apple describe su implementación aquí .


1

Para ampliar la respuesta de @ hotpaw2, "Hey Siri" se ejecuta en el chip M9 Coprocessor de baja potencia , que también hace cosas como monitorear pasos, etc. para la aplicación Health. En consecuencia, en dispositivos más antiguos sin el chip M9, necesita que su dispositivo iDevice esté enchufado para que funcione "Hey Siri".

Creo que la implementación de hardware de baja potencia es clave (en lugar de solo genio algorítmico agnóstico de hardware)

Referencias


0

Solo algunas conjeturas salvajes:

El hardware dedicado (chip "M" adicional o bloque lógico SOC con su propio dominio de potencia aislado), que se ejecuta a velocidades de reloj de procesamiento de audio o ciclos de trabajo, en pequeños buffers de datos, consume mucha menos energía que las CPU con capacidad de GHz con vastas jerarquías de memoria. La CPU principal solo tiene que reactivarse si una ID probable inicial es lo suficientemente alta, por lo que el algoritmo de detección inicial no necesita ser bueno, solo lo suficientemente bueno. Además, considere cuán pequeña es la batería de un auricular Bluetooth en la oreja en comparación con un teléfono inteligente con la misma duración de la batería. El procesamiento simple de audio no agota rápidamente las baterías relativamente grandes de los teléfonos móviles.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.