En realidad me topé con esta pregunta porque estaba buscando si esto ya se había hecho. Lo único que encontré todavía es la aplicación mycarmakesnoise, pero tendrás que comparar los sonidos tú mismo. No soy mecánico, por lo que no sé mucho sobre los sonidos de un defecto en un automóvil.
Sin embargo, estoy empezando a aprender sobre el aprendizaje profundo. Para mí, parece totalmente posible utilizar el espectrograma de una grabación de audio de un defecto a problemas de identidad utilizando una red neuronal convolucional. Quizás incluso mejor que los humanos, ya que las imágenes pueden clasificarse más precisas por una computadora que por un humano (~ 94% para humanos versus ~ 95% para computadoras). Sin embargo, hay problemas importantes que superar.
En primer lugar, necesita un conjunto de datos muy grande. Eso significa reunir (al menos) cientos de grabaciones de audio del mismo defecto en el mismo vehículo. Miles de grabaciones serían aún mejores (mayor conjunto de datos = mejores resultados). Digamos que queremos identificar diez defectos diferentes y hay (conjetura total) 300 tipos de automóviles. Necesitaría 300 * 10 * 100 = 300,000 grabaciones solo para diez defectos. Además, no puede usar el mismo automóvil una y otra vez. Eso significaría que necesitará 100 autos del mismo tipo por defecto para obtener mejores resultados. Reunir estas grabaciones sería una operación masiva. Supongo que una forma de contrarrestar este problema sería comenzar con una marca y un tipo de automóvil.
El siguiente problema es la diferencia de sonido por tipo de automóvil con el mismo defecto. Un Volvo con frenos rotos sonará diferente a un Ford con el mismo problema. Este problema probablemente se pueda superar teniendo un conjunto de datos realmente grande, como se mencionó anteriormente.
Además, el ruido de fondo siempre será diferente. Una persona podría estar sentada en un verdadero auto silencioso, escuchando nada más que sus pensamientos. La otra persona estallará metal en un auto de mierda con cosas que crujen y cosas en el maletero que hacen mucho ruido. Lo mismo cuenta aquí. Necesita un conjunto de datos grande, por lo que el ruido de fondo puede ser lo más aleatorio posible.
El último problema que se me ocurre ahora es la potencia de cálculo necesaria. Las redes neuronales necesitan capacitación mediante el conjunto de datos grandes que recopilamos. Esto requiere mucha potencia computacional. Sin acceso a una súper computadora o al menos una buena tarjeta de video, la capacitación llevaría días o semanas.
En resumen: Sí, probablemente sea posible detectar defectos en los automóviles utilizando el sonido que produce, pero probablemente sea realmente difícil de hacer.
[editar]
Una opción podría ser entrenar una red neuronal por marca y modelo de automóvil, pero aún así. Me imagino, por ejemplo, una ruptura de parte podría producir sonidos muy diferentes dependiendo de dónde se rompió. Nuevamente, no soy mecánico, por lo que podría estar lleno de mierda cuando se trata de autos.
No creo que una herramienta genérica de detección de problemas sea casi imposible. Creo que es muy plausible que se pueda construir una herramienta como esta utilizando una red neuronal. Sin embargo, reunir suficientes datos de sonido para entrenar a la red sería un gran trabajo.
Además, si estamos trabajando con automóviles más nuevos, podemos agregar todo tipo de información del sistema OBD a los tensores de entrada de la red neuronal. Esa información adicional podría ser muy útil para que la red neuronal descubra lo que está sucediendo.