Las herramientas estadísticas estándar son el coeficiente de correlación (ver la respuesta de Michael Chernick) que es un valor entre [-1,1] y es independiente de la unidad. Relacionado con el coeficiente de correlación está la covarianza. La covarianza se ve afectada por las unidades, pero puede ser más fácil de interpretar. Sin embargo, no me gusta ninguna de esas opciones en el caso general. No me gustan porque no son independientes de la transformación conforme. Considere que una línea recta horizontal o vertical se considera no lineal por ambas medidas.
Una mejor opción sin unidades es utilizar una descomposición de valor singular (SVD). El SVD divide los datos en partes componentes clasificadas por la magnitud de su contribución al conjunto. La razón del número singular más grande al segundo número singular más grande es, por lo tanto, una métrica de linealidad. Tenga en cuenta que para usar este método primero debe centralizar los datos (hacer que las coordenadas X, Y, Z, etc., sean iguales a cero).
Ejemplo: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;
Pts centralizados: 9.792639127 0.656480018; -0.340591673 -1.68817349; -4.519928343 -1.801499913; -4.932119113 2.833193384;
SVD, matriz D: 11.86500017 0; 0 3.813448344
Relación de valores singulares 3.111357
La relación anterior se puede interpretar aproximadamente como que los datos son tres veces más largos en la dirección de la línea de mejor ajuste, ya que son lineales cruzados.
Para una solución con unidades que tiene unidades y no requiere una SVD. Haga un ajuste de línea que tenga el centro de la línea como uno de los parámetros. Usar los datos centralizados anteriores es simple: línea pt = 0 0 (siempre el caso para datos centralizados) dirección de línea = -0.999956849 -0.009289783
Los vectores desde el centro de la línea a cada punto son las coordenadas centralizadas de los puntos. Encuentre las longitudes de la proyección de estos vectores en la línea (valor absoluto del punto del vector en la dirección de la línea), y la longitud del componente perpendicular del vector (longitud de la dirección de la línea transversal del vector). Longitud paralela, longitud perpendicular 9.798315123, 0.565480194; 0.356259742, 1.684936621; 4.536468847, 1.759433021; 4.905586534, 2.878889448;
El máximo de proyecciones paralelas es el tramo de datos a lo largo de la línea. La longitud máxima de la proyección perpendicular es una medida de la no linealidad. La relación de los dos es una aproximación de la relación de valores singulares anterior.
Notas 1. La invariancia afina en la linealidad no es posible. Considere que, en una transformación afín, podríamos escalar todos los ejes de coordenadas menos uno a cerca de cero (haciendo que cualquier conjunto de puntos sea lineal). Entonces, la invariancia conforme es lo mejor que podemos hacer. 2. Estos métodos NO SON ROBUSTOS para datos atípicos. 3. Los ejemplos son 2D pero generalizados a N-dimensional.