¿Hay un nombre mejor que "promedio de la integral"?


12

Estoy probando los sensores de posición del acelerador (TPS) que vende mi empresa e imprimo el diagrama de respuesta de voltaje a la rotación del eje del acelerador. Un TPS es un sensor giratorio con 90 ° de rango y la salida es como un potenciómetro con una apertura total de 5V (o valor de entrada del sensor) y la apertura inicial es de algún valor entre 0 y 0.5V. Construí un banco de pruebas con un controlador PIC32 para tomar una medición de voltaje cada 0,75 ° y la línea negra conecta estas mediciones.

Uno de mis productos tiene una tendencia a hacer variaciones localizadas de baja amplitud lejos (y debajo) de la línea ideal. Esta pregunta es sobre mi algoritmo para cuantificar estas "inmersiones" localizadas; ¿Cuál es un buen nombre o descripción para el proceso de medición de las inmersiones? (sigue la explicación completa) En la imagen a continuación, la caída se produce en el tercio izquierdo de la trama y es un caso marginal si aprobaría o no esta parte:

Impresión de una parte sospechosa

Así que construí un detector de inmersión ( stackoverflow qa sobre el algoritmo ) para cuantificar mi sensación intestinal. Inicialmente pensé que estaba midiendo "área". Este gráfico se basa en la impresión anterior y mi intento de explicar el algoritmo gráficamente. Hay una caída que dura 13 muestras entre 17 y 31:

Los datos muestreados se muestran con el "dip" ampliado

Los datos de prueba van en una matriz y hago otra matriz para "subir" de un punto de datos al siguiente, que llamo . Utilizo una biblioteca para obtener la desviación promedio y estándar de los .d e l t a sdeltasdeltas

El análisis de la matriz se representa en el siguiente gráfico, donde la pendiente se elimina del gráfico anterior. Originalmente, pensé en esto como "normalizar" o "unificar" los datos, ya que el eje x son pasos iguales y ahora solo estoy trabajando con el aumento entre los puntos de datos. Al investigar esta pregunta, recordé que esta es la derivada, de los datos originales.d ydeltasdydx

Análisis de la derivada ...?

Recorro los para encontrar secuencias donde hay 5 o más valores negativos adyacentes. Las barras azules son una serie de puntos de datos que están por debajo del promedio de todos los . Los valores de las barras azules son:d e l t a sdeltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

Suman , que representa el área (o la integral). Mi primer pensamiento es "Acabo de integrar la derivada", lo que debería significar que recupero los datos originales, aunque estoy seguro de que hay un término para esto.23

La línea verde es el promedio de estos "valores por debajo del promedio" que se encuentran al dividir el área por la longitud de la caída:

23÷13=1.77

Durante la prueba de más de 100 partes, decidí que las inmersiones con un promedio de mi línea verde inferior a son aceptables. La desviación estándar calculada en todo el conjunto de datos no fue una prueba lo suficientemente estricta para estas inmersiones, ya que sin suficiente área total, todavía se encontraban dentro del límite establecido para las partes buenas. Observacionalmente elegí la desviación estándar de para ser la más alta que permitiría.3.02.63.0

|deltasavg|>avg+stddev

Han pasado casi 20 años desde el Calc 1, así que, por favor, sé tranquilo, pero esto se parece mucho a cuando un profesor usa el cálculo y la ecuación de desplazamiento para explicar cómo, en las carreras, un competidor con menos aceleración que mantiene una mayor velocidad en las curvas puede vencer a otro competidor que tiene mayor aceleración para el siguiente giro: al pasar por el giro anterior más rápido, la mayor velocidad inicial significa que el área bajo su velocidad (desplazamiento) es mayor.

Para traducir eso a mi pregunta, siento que mi línea verde sería como la aceleración, la segunda derivada de los datos originales.

Visité Wikipedia para releer los fundamentos del cálculo y las definiciones de derivada e integral , aprendí el término apropiado para sumar el área bajo una curva a través de medidas discretas como Integración numérica . Mucho más google en promedio de la integral y llevo al tema de la no linealidad y el procesamiento de señal digital. Promediar la integral parece ser una métrica popular para cuantificar datos .

1.77


Creo que la "caída promedio" es lo suficientemente buena. No tiene las dimensiones de la aceleración, por lo que ciertamente no tiene nada que ver con eso.
ShreevatsaR

Y agradecería cualquier observación o comentario sobre este tema en su conjunto. Estoy un poco molesto por cómo esta medida de "instinto" no se expresa mejor matemáticamente.
Chris K

¿Podría agregar todos los puntos de datos que utilizó para construir la línea ideal, o agregar un poco más de información sobre cómo se calcula la línea roja punteada para justificar que las barras azules son los "deltas que están por debajo del promedio de todos los puntos de datos "? Si es moralmente la distancia promedio del promedio, entonces debe haber un nombre de estilo de aceleración para ello, reemplazando, por supuesto, la diferenciación con tomar un promedio.

1
Migrado de Math.SE por solicitud de OP: meta.stats.stackexchange.com/questions/1845/…
Willie Wong

1
Podría agregar la palabra "local" para dejar en claro que el paso 1 existe. Estoy de acuerdo con @Glen_b (otro Glen - ¡hola!) De que esto es importante. Por lo tanto, sugeriría tentativamente "defecto medio local" donde simplemente concatenaba "desviación del ideal" a "defecto". Parece adecuado
Glen Wheeler

Respuestas:


3

En primer lugar, esta es una excelente descripción de su proyecto y del problema. Y soy un gran admirador de su marco de medición hecho en casa, que es súper genial ... entonces, ¿por qué importa qué llama "promediar las integrales"?

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαh
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

x[n]

También hay otras reglas que puede considerar para clasificar un dispositivo como defectuoso:

  • si alguna desviación (delta) es mayor que algún múltiplo de la SD de todos los deltas
  • si la suma cuadrada de las desviaciones es mayor que cierto umbral
  • si la proporción de la suma de los deltas positivos y negativos no es aproximadamente igual (lo que podría ser útil si prefiere errores más pequeños en ambas direcciones en lugar de un sesgo fuerte en una sola dirección)

Por supuesto, puede encontrar más reglas y concatenarlas utilizando la lógica booleana, pero creo que puede llegar muy lejos con las tres anteriores.

Por último, pero no menos importante, una vez que lo configure, deberá probar el clasificador (un clasificador es un sistema / modelo que asigna una entrada a una clase, en su caso los datos de cada dispositivo, ya sea "bueno" o " defectuoso"). Cree un conjunto de pruebas etiquetando manualmente el rendimiento de cada dispositivo. Luego, busque en ROC , que básicamente le indica el desplazamiento entre la cantidad de dispositivos que su sistema recoge correctamente de los devueltos, en relación con la cantidad de dispositivos defectuosos que recoge.


Creo que "por qué demonios importa" es una función de su propio nombre de usuario. :) ¿Por qué? La misma razón por la que hay una cresta ilíaca: necesitamos palabras para cuantificar distintivamente todo lo único en la vida. En mi opinión, este control de calidad es un ejemplo de cuán limitado es el vocabulario dentro de las estadísticas. Necesitamos combinar descriptores confusos o contradictorios para lo que es "a simple vista" tan simple.
Chris K

Jeje, bien visto señor! :) Si omití alguna aventura en la tierra de la marca creativa, fue simplemente porque me sentí obligado a apoyar el ingenio y la dedicación de su esfuerzo e ideas en lugar de inventar etiquetas vanas. Como insiste en nombrar la media de la integral, tenga en cuenta que lo que considera la "media de la integral" es una simple media de sus deltas. Y como tal, sus valores atípicos son simplemente "desviaciones de la media", o posiblemente desviaciones de la media local. No veo la ventaja de pensar en integrales, a menos que no tenga suficientes puntos de muestreo.
significado para el
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.