¿Cuál es una buena manera de medir la "linealidad" de un conjunto de datos?


8

Tengo un conjunto de datos empíricamente recopilado que relaciona dos variables. En un rango pequeño, la relación parece lineal, sin embargo, en un rango mayor, claramente existe una relación polinómica de segundo orden como se puede ver en la imagen en http://imgur.com/W7f9p .

Estoy tratando de obtener una medida de linealidad para diferentes rangos considerados. Por ejemplo, a 20 <x <60 o 100 <x <120 es muy lineal, pero a 20 <x <180 no es muy lineal. Intenté ajustar una línea recta a los datos y calcular los datos R ^ 2 (bondad de ajuste), pero esto muestra que la línea recta sobre el rango más grande tiene un mejor ajuste que sobre el rango más pequeño. Si bien esto puede ser cierto con MS Excel, de la imagen está claro que el rango más grande es menos lineal ... si mantiene el lado de un papel contra los puntos.

¿Existe una mejor manera de medir la "linealidad" de un conjunto de datos?


Esta pregunta probablemente debería (y probablemente será) migrada al sitio de estadísticas. Hay un montón de excelentes programas de estadísticas gratis por ahí. Puede buscar el programa R y probarlo.

Quizás te interese este artículo ncbi.nlm.nih.gov/pubmed/16724492 La idea es ajustar un modelo lineal por partes y probar la igualdad de las pendientes (ya no comento porque no lo he leído)
Stéphane Laurent

2
¿Está realmente interesado en la linealidad de los datos o en la linealidad de la curva subyacente ? La distinción es que debido a que los datos (pueden) muestrear la curva de manera desigual, una medida basada en los datos variaría de acuerdo con la naturaleza del muestreo, mientras que una estimación de la linealidad de la curva sería más estable bajo los cambios del programa de muestreo. Además, ¿concibe la "linealidad" como una propiedad absoluta (y por lo tanto dependiente de las unidades de medida) o es una propiedad de la forma de la curva (y por lo tanto invariable bajo transformaciones afines de x e y)?
whuber

Respuestas:


6

Ajuste una función cuadrática en lugar de lineal. El valor absoluto de la estimación del coeficiente más alto de la cuadrática sirve como una medida razonable de linealidad, que es cero si los datos se encuentran exactamente en una línea. Además, si los datos provienen de un modelo lineal con ruido gaussiano, el teorema de Gauss-Markov garantiza que las estimaciones del coeficiente son insesgadas, por lo tanto, bajo la repetición del ajuste con múltiples datos de la misma distribución del modelo, el valor esperado del coeficiente será cero.

Por supuesto, en un solo ajuste, uno generalmente no obtiene cero, por lo que uno tendría que usar alguna prueba para determinar la importancia de los coeficientes.


¿Podría explicar un poco por qué sirve como una medida sensata de linealidad?
Lucas Reis

1
@LucasReis: agregué algunas razones.
Arnold Neumaier

(+1) Me parece que cualquier medida razonable de "linealidad" debería ser invariable bajo cambios de ubicación y escala (tanto en las variables dependientes como en las independientes). Eso descarta el uso del término cuadrático, pero sugiere que puede ser conveniente considerar el uso del término cuadrático cuando se usan variables estandarizadas en la regresión. Sin embargo, tenga en cuenta que el término cuadrático no capturará desviaciones complejas de la linealidad, como un patrón de onda.
whuber

@whuber: buen punto. La respuesta de Michael Chernick tiene esta propiedad y, por lo tanto, es preferible a la mía.
Arnold Neumaier

En realidad, prefiero su solución modificada por @Douglas Maynard (quien, mediante el uso de betas, logra un resultado invariable). Al principio, a mí también me gustó la respuesta de Chernick, pero cuando la examiné más profundamente, pareció querer en algunos aspectos clave. Una es que depende en gran medida del muestreo. Por ejemplo, muestreo pesado en extremox los valores conducirán |ρ| a 1sin cambiar la curvatura general. Otra es que caracteriza mal las líneas horizontales, que son perfectamente lineales pero para las cuales|rho|0! El término cuadrático, por otro lado, es robusto para tales cambios caprichosos.
whuber

4

Una forma de hacerlo sería ejecutar una regresión jerárquica con la variable del eje Y como resultado / criterio. En el paso / bloque 1 ingresaría su variable X como predictor, y en el paso / bloque 2, ingresaría un término de producto (X al cuadrado o multiplicado contra sí mismo). El término X cuadrado representa su componente cuadrático. Los pesos de regresión estandarizados (betas) para X y X al cuadrado le darían una idea de la "fuerza" de los componentes lineales y cuadráticos entre sí, y el cambio en R-cuadrado de paso / bloque 1 a paso / bloque 2 es una indicación de cuánto mejor se ajusta el modelo a los datos cuando ha agregado el componente cuadrático.

Ver cap. 8 en Keith, TZ (2005). Regresión múltiple y más allá. Allyn y tocino. 978-0205326440


1

La mejor medida de linealidad entre dos variables x e y es el coeficiente de correlación de momento del producto de Pearson. Cuanto más cerca esté de 1 en valor absoluto, más cerca estará el ajuste de una línea recta perfecta. Ahora, si cree que hay una buena linealidad en una subregión, calcule la correlación solo para esos pares en la subregión. Si hay un cambio de forma fuera de esa región, debería aparecer en una caída en la correlación cuando se incluyen todos los datos.


(+1) en.wikipedia.org/wiki/… explica la noción.
Arnold Neumaier

0

Las herramientas estadísticas estándar son el coeficiente de correlación (ver la respuesta de Michael Chernick) que es un valor entre [-1,1] y es independiente de la unidad. Relacionado con el coeficiente de correlación está la covarianza. La covarianza se ve afectada por las unidades, pero puede ser más fácil de interpretar. Sin embargo, no me gusta ninguna de esas opciones en el caso general. No me gustan porque no son independientes de la transformación conforme. Considere que una línea recta horizontal o vertical se considera no lineal por ambas medidas.

Una mejor opción sin unidades es utilizar una descomposición de valor singular (SVD). El SVD divide los datos en partes componentes clasificadas por la magnitud de su contribución al conjunto. La razón del número singular más grande al segundo número singular más grande es, por lo tanto, una métrica de linealidad. Tenga en cuenta que para usar este método primero debe centralizar los datos (hacer que las coordenadas X, Y, Z, etc., sean iguales a cero).

Ejemplo: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

Pts centralizados: 9.792639127 0.656480018; -0.340591673 -1.68817349; -4.519928343 -1.801499913; -4.932119113 2.833193384;

SVD, matriz D: 11.86500017 0; 0 3.813448344

Relación de valores singulares 3.111357

La relación anterior se puede interpretar aproximadamente como que los datos son tres veces más largos en la dirección de la línea de mejor ajuste, ya que son lineales cruzados.

Para una solución con unidades que tiene unidades y no requiere una SVD. Haga un ajuste de línea que tenga el centro de la línea como uno de los parámetros. Usar los datos centralizados anteriores es simple: línea pt = 0 0 (siempre el caso para datos centralizados) dirección de línea = -0.999956849 -0.009289783

Los vectores desde el centro de la línea a cada punto son las coordenadas centralizadas de los puntos. Encuentre las longitudes de la proyección de estos vectores en la línea (valor absoluto del punto del vector en la dirección de la línea), y la longitud del componente perpendicular del vector (longitud de la dirección de la línea transversal del vector). Longitud paralela, longitud perpendicular 9.798315123, 0.565480194; 0.356259742, 1.684936621; 4.536468847, 1.759433021; 4.905586534, 2.878889448;

El máximo de proyecciones paralelas es el tramo de datos a lo largo de la línea. La longitud máxima de la proyección perpendicular es una medida de la no linealidad. La relación de los dos es una aproximación de la relación de valores singulares anterior.

Notas 1. La invariancia afina en la linealidad no es posible. Considere que, en una transformación afín, podríamos escalar todos los ejes de coordenadas menos uno a cerca de cero (haciendo que cualquier conjunto de puntos sea lineal). Entonces, la invariancia conforme es lo mejor que podemos hacer. 2. Estos métodos NO SON ROBUSTOS para datos atípicos. 3. Los ejemplos son 2D pero generalizados a N-dimensional.


Creo que
querías
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.