Dado un evento en un juego, ¿cuál es el retraso máximo para producir audio que el jugador asociará correctamente el audio con ese evento (y no percibirá retraso)?
Dado un evento en un juego, ¿cuál es el retraso máximo para producir audio que el jugador asociará correctamente el audio con ese evento (y no percibirá retraso)?
Respuestas:
Los siguientes resultados se calculan para la sincronización de labios, que se considera "el error de sincronización de a / v más notable" .
Wikipedia dice
Para aplicaciones de televisión, el audio debe adelantar el video en no más de 15 milisegundos y el audio debe retrasar el video en no más de 45 milisegundos. Para la película, se considera que la sincronización de labios aceptable no supera los 22 milisegundos en cualquier dirección.
El Laboratorio de Percepción de Medios y Acústica dice
Los resultados del experimento determinaron que el umbral inicial de audio promedio para la detección de sincronización a / v fue de 185.19 ms, con una desviación estándar de 42.32 ms
El ATSC dice
A primera vista parece flojo: +90 ms a -185 ms como una "Ventana de Aceptabilidad"
y
- Indetectable de -100 ms a +25 ms
- Detectable a -125 ms y +45 ms
- Se vuelve inaceptable a -185 ms y +90 ms
(- Sonido retrasado, + Sonido avanzado)
Para concluir
Los resultados no están tan lejos el uno del otro. Parece que el retraso máximo aceptable es de alrededor de 150 ms, que es de 9 cuadros a 60 cuadros por segundo.
Sintiendo que, por ejemplo, una explosión que ve y escucha es un evento único que tendrá las tolerancias descritas en otras respuestas, no más de ~ 50 ms; algunas personas pueden ser más sensibles (por ejemplo, músicos), por lo que sugeriría apuntar a 30 ms o no más de 2 cuadros a 60 fps.
Creo que la distancia percibida debería afectar esas tolerancias. La gente espera que los sonidos lejanos se retrasen un poco, ya que en la vida real el sonido se retrasa aproximadamente 1 ms por cada pie de distancia. Por lo tanto, una explosión en un 'mapa' del juego RTS reducido podría tener una mayor tolerancia al retraso del sonido que el jugador disparando su propia arma en un FPS.
Los casos especializados, como tener una sensación adecuada para un juego de música / ritmo, pueden requerir tolerancias mucho más estrictas, 15-20 ms o incluso más bajas, por ejemplo, si el jugador escucha tanto la "acción de entrada" como cantar en un micrófono o golpear un instrumento de plástico, y también un sonido generado por su sistema para el mismo evento, luego un retraso de 50 ms hará que los sonidos "originales" y "reproducidos" se mezclen de manera extraña.
Además, tenga en cuenta el retraso entre el inicio del archivo de audio y el "evento" dentro de ese archivo de audio: en muchos clips de audio, el "evento" no estará en el borde, es posible que tenga el sonido de un rayo huelga donde el "golpe" ocurre 200 ms después del comienzo, lo que sería obvio para todos, y casi todos los archivos de sonido, incluso un golpe de batería, tendrán algún retraso allí.
La vista y el oído están profundamente conectados en la percepción humana, y si uno de ellos tartamudea relativamente al otro, entonces será perceptible. No está bien si la mayoría de las veces es muy rápido, pero ocasionalmente hay un retraso de 0.2 segundos mientras se carga algo; la gente notará tales situaciones. Esta es la razón por la cual el audio a menudo se ejecuta en un hilo separado, aislado de las otras actividades y solo recibe notificaciones rápidas sobre los clips precargados que se deben reproducir.
Cualquier situación en la que un jugador cause el sonido (juegos de música, pistolas en FPS) necesitará un retraso muy bajo ya que el jugador ha enviado un impulso para que suceda en ese momento, por lo que cuando un músico escucha su instrumento retrasado, será particularmente consciente de retrasos muy pequeños. Los ingenieros de sonido se preocupan por retrasos en la grabación por debajo de 5 mSeg que arruinan el "ritmo"
El Journal of the American Academy of Audiology afirma que las personas (no solo los músicos), cuando escuchan su propia voz con retraso, son conscientes de retrasos tan cortos como 3 mSec, y un retraso de más de 10 mSec era objetable el 90% del tiempo.
Los humanos usan el tiempo de retraso entre sus oídos para obtener información direccional y, por lo tanto, deben poder procesar y extraer información de retrasos inferiores a 1 mSeg.
Los 185.19 ms citados anteriormente son irrelevantes ya que se refieren a un error de sonido principal y, de todos modos, a lo que la gente considera aceptable cuando mira pasivamente una película, no participa activamente en un juego.
La respuesta aceptada aquí analiza principalmente la percepción de sincronización de audio al mirar videos pasivamente. En estos casos, el público no puede precisar con exactitud cuándo debe reproducirse el audio, excepto si se atiende a señales reveladoras en el video. Esto significa que tienen una anticipación limitada del sonido.
Hay dos casos importantes en los juegos donde esta suposición de baja anticipación no se cumple:
Cuando el propio jugador causó el sonido (como señala SamB), desde el momento en que forman la intención de presionar el botón, saben exactamente cuándo esperan escuchar el sonido.
Cuando se supone que el sonido cae en un ritmo periódico , como en los juegos de música o cualquier cosa con un temporizador / contador de tiempo, este ritmo le permite al jugador anticipar el próximo sonido y notar si suena fuera de tiempo.
En esta charla de GDC 2013, Mathieu Pavageau argumenta que los jugadores pueden percibir diferencias en la precisión de sincronización por encima de unos 5 ms , mucho menos indulgentes de lo que sugerirían los ejemplos de sincronización de labios. Consulte las secciones "Ejemplos de percepción de tiempo" y "Ejemplo de juegos de Ubisoft" para escucharlo usted mismo. Puede escuchar que el menú de Rayman Origins no suena "lento" per se cuando se sincroniza dentro de 16 ms (fotograma de video), pero cuando se sincroniza dentro de 5 ms suena notablemente mejor y más ajustado.
Pavageau recomienda utilizar una devolución de llamada de audio de bajo nivel para obtener este tipo de precisión de subcuadro si desea un juego rítmico de esta variedad.
Para los juegos que requieren que una persona reaccione a las señales de audio, cada milisegundo en el que se retrasa el sonido hará que la respuesta de la persona también se retrase. Alguien que simplemente está viendo una película o una escena cortada puede no notar demasiado si el audio y el video no están exactamente sincronizados, pero a menudo es importante y a veces crítico que el audio esté sincronizado con lo que se espera que haga el reproductor .
En teoría, todo lo que supera los 50 ms puede ser notable cuando se trata de su asociación con las imágenes, a los 25 ms puede comenzar a escuchar un sonido y su retraso como dos sonidos separados, por lo que diría que le recomendaría que permanezca por debajo de los 50 ms y si usted Incluso puede permanecer en algo de 5 ms a 15 ms sería realmente agradable.
¡Espero que esto ayude!