Esto es algo así como un arte, pero hay algunas cosas estándar y directas que uno siempre puede intentar.
Lo primero que debe hacer es volver a expresar la variable dependiente ( ) para normalizar los residuos . Eso no es realmente aplicable en este ejemplo, donde los puntos parecen caer a lo largo de una curva no lineal suave con muy poca dispersión. Entonces procedemos al siguiente paso.y
Lo siguiente es volver a expresar la variable independiente ( ) para linealizar la relación. Hay una manera simple y fácil de hacer esto. Elija tres puntos representativos a lo largo de la curva, preferiblemente en ambos extremos y en el medio. De la primera figura leí los pares ordenados = , y . Sin otra información que no sea que siempre parece ser positiva, una buena opción es explorar las transformaciones de Box-Cox para varias potencias , generalmente elegidas para ser múltiplos de o y típicamente entre( r , y ) ( 10 , 7 ) ( 90 , 0 ) ( 180 , - 2 ) r r → ( r p - 1 ) / p p 1 / 2 1 / 3 - 1 1 p 0 log ( r )r(r,y)(10,7)(90,0)(180,−2)r r→(rp−1)/pp1/21/3−1 y . (El valor límite cuando acerca a es . Esta transformación creará una relación lineal aproximada siempre que la pendiente entre los dos primeros puntos sea igual a la pendiente entre el segundo par.1p0log(r)
Por ejemplo, las pendientes de los datos no transformadas son = - y = . Estos son bastante diferentes: uno es aproximadamente cuatro veces el otro. Intentar da pendientes de , etc., que funcionan a y : ahora uno de ellos es solo el doble que el otro, lo cual es una mejora. Continuando de esta manera (una hoja de cálculo es conveniente), encuentro que funciona bien: las pendientes ahora son y(0−7)/(90−10)0.088(−2−0)/(180−90)−0.022p=−1/2-16,6-32.4p≈0-7,3-6.6y=α+βlog(r)y(0−7)/(90−1/2−1−1/2−10−1/2−1−1/2)−16.6−32.4p≈0−7.3−6.6, casi el mismo valor. En consecuencia, debe probar un modelo de la forma . Luego repita: ajuste una línea, examine los residuos, identifique una transformación de para hacerlos aproximadamente simétricos e itere.y=α+βlog(r)y
John Tukey proporciona detalles y muchos ejemplos en su libro clásico Exploratory Data Analysis (Addison-Wesley, 1977). Da procedimientos similares (pero un poco más complicados) para identificar transformaciones estabilizadoras de varianza de . Un conjunto de datos de muestra que proporciona como ejercicio se refiere a datos centenarios sobre las presiones de vapor de mercurio medidas a varias temperaturas. Seguir este procedimiento le permite a uno redescubrir la relación Clausius-Clapeyron ; ¡Los residuos del ajuste final se pueden interpretar en términos de efectos cuántico-mecánicos que ocurren a distancias atómicas!y