¿Las trampas que se deben evitar al transformar los datos?

15

Logré una fuerte relación lineal entre mi variable $X$ e $Y$ después de transformar doblemente la respuesta. El modelo era $Y\sim X$ pero lo transformé a $\sqrt{\frac{Y}{X}}\sim \sqrt{X}$ mejorando $R^2$ de .19 a .76.

Claramente hice una cirugía decente en esta relación. ¿Alguien puede discutir las trampas de hacer esto, como los peligros de transformaciones excesivas o posibles violaciones de los principios estadísticos?

regression data-transformation r-squared

— Info5ek
fuente

1

Por lo que tienes, solo por el álgebra, parece que solo

. ¿Puedes publicar los datos o mostrar un gráfico? ¿Hay razones científicas para esperar

cuando

?

Y \propto X^{2}

$Y \propto X^2$

Y = 0

$Y = 0$

X = 0

$X = 0$

— Nick Cox

1

@ NickCox: Creo que

es una notación no convencional para

; quizás el OP está hablando R en lugar de matemáticas (algo que debe desanimarse, por supuesto).

Y \sim X

$Y\sim X$

E Y = β_{0} + β_{1} X

$\mathrm{E} Y=\beta_0 + \beta_1 X$

— Scortchi - Restablece a Monica

@Scortchi, me temo que tienes razón. Ver los datos ayudaría de cualquier manera.

— Nick Cox

En este caso, un 0 X implicaría un 0 Y ya que Y está causando muertes y X es el KM total manejado por todos los conductores.

— Info5ek

2

@AaronHall La ecuación no es necesariamente inútil, ya que (multiplicando por

\sqrt{X}

$\sqrt X$ es

, que bien puede ser un modelo potencialmente plausible en algunas situaciones). Sin embargo, el

en la forma de la ecuación dada en la pregunta no es muy útil, no se puede comparar con algo ajustado en una escala diferente. (Por cierto, si ese era su downvote en mi respuesta, una explicación de lo que usted piensa que está mal en la respuesta sería útil.)

\sqrt{Y} = β_{0} \sqrt{X} + β_{1} X + \sqrt{X} ϵ

$\sqrt Y = \beta_0 \sqrt X + \beta_1 X + \sqrt X\epsilon$

R^{2}

$R^2$

— Glen_b -Reinstate Monica

20

Realmente no se puede comparar antes y después, porque la variabilidad subyacente en es diferente. Entonces, literalmente, no puede consolarse del cambio en . Eso no le dice nada de valor al comparar los dos modelos. $R^2$ $Y$ $R^2$

Los dos modelos son diferentes en varias formas, por lo que significan cosas diferentes: suponen cosas muy diferentes sobre la forma de la relación y la variabilidad del término de error (cuando se consideran en términos de la relación entre y ). Entonces, si está interesado en modelar (si es significativo), produzca un buen modelo para eso. Si estás interesado en modelar $Y$ $X$ $Y$ $Y$ (/ $\sqrt Y$ es significativo), produce un buen modelo para eso. Si $\sqrt Y$ tiene significado, luego haz un buen modelo para eso. Pero compare cualquier modelo de la competencia en escalas comparables. en diferentes respuestas simplemente no son comparables. $\sqrt{Y/X}$ $R^2$

Si solo intenta diferentes relaciones con la esperanza de encontrar una transformación con un alto , o cualquier otra medida de "buen ajuste", las propiedades de cualquier inferencia que le gustaría realizar se verán afectadas por la existencia de Ese proceso de búsqueda. $R^2$

Las estimaciones tenderán a estar sesgadas de cero, los errores estándar serán demasiado pequeños, los valores p serán demasiado pequeños, los intervalos de confianza demasiado estrechos. En promedio, sus modelos parecerán "demasiado buenos" (en el sentido de que su comportamiento fuera de la muestra será decepcionante en comparación con el comportamiento dentro de la muestra).

Para evitar este tipo de sobreajuste, debe, si es posible, realizar la identificación y estimación del modelo en diferentes subconjuntos de datos (y la evaluación del modelo en un tercero). Si repite este tipo de procedimiento en muchas "divisiones" de los datos tomados al azar, tendrá una mejor idea de cuán reproducibles son sus resultados.

Aquí hay muchas publicaciones con puntos relevantes sobre estos temas: puede valer la pena intentar algunas búsquedas.

(Si tiene buenas razones a priori para elegir una transformación en particular, ese es un problema diferente. Pero buscar en el espacio de las transformaciones para encontrar algo que se adapte conlleva todo tipo de problemas de tipo 'espionaje de datos').

— Glen_b -Reinstate a Monica
fuente

Gracias por la respuesta Glen. La razón por la que hice esta transformación es porque es la única que no me dio residuos sesgados. Probé el estándar y / x, log (y), sqrt (y) y varias combinaciones de esos. Todo resultó en una parcela residual inclinada. Solo después de hacer una transformación de dos etapas obtuve residuos de aparición aleatoria. Sin embargo, usted afirma que este modelo es potencialmente poco informativo para los datos fuera de la muestra, ya que puedo haber sobreajustado los datos, ¿correcto?

— Info5ek

Bueno, sí, pero es un problema con cualquier forma de especificación del modelo cuando se miran los datos, por lo que sucede mucho. En muchas situaciones es difícil de evitar, que es donde puede entrar la división de la muestra. (La validación cruzada puede ser una herramienta útil para tales situaciones.)

— Glen_b -Reinstalar Monica

Sería útil saber los motivos del voto negativo. ¿Qué hay de malo con la respuesta? Quizás se pueda mejorar. (Si no se puede mejorar, ¿por qué el

— voto negativo

1

@Glen_b: Sin embargo, es difícil validar de forma cruzada un procedimiento mal definido: en cada pliegue necesitaría repetir el proceso de mirar los diagnósticos, pensar otra transformación cuando no le gustaron, probar eso, etc.

— Scortchi - Restablece a Monica

1

@Scortchi Sí, si las transformaciones no se seleccionan de un grupo conocido de candidatos por alguna regla simple, puede ser imposible.

— Glen_b -Reinstalar Monica

16

Hay un problema mayor que los identificados por @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

Y obtengo un de 0.49 y un valor P que es $R^2$ $5.5 \times 10^{-16}$ .

Tienes en ambos lados de la ecuación. $X$

— Peter Flom - Restablece a Monica
fuente

2

No estoy seguro de que sea un problema diferente a no tener buenas razones a priori para expresar el modelo de una manera en lugar de otra. Si deja que

y

W = \sqrt{\frac{Y}{X}}

$W=\sqrt{\frac{Y}{X}}$

entonces también puedes decir que el primer modelo (

) tiene

en ambos lados de la ecuación.

Z = \sqrt{X}

$Z=\sqrt{X}$

Y \sim X

$Y\sim X$

Z^{2}

$Z^2$

— Scortchi - Restablece a Monica

44

Si

y

son ruido aleatorio, la regresión de

en

da una relación fuerte. ¿De dónde la asimetría que etiqueta una regresión espuria en lugar de la otra sin tener en cuenta qué significan las variables? Este tipo de cosas se debatió entre Pearson y Yule ( Aldrich (1995) ) y estoy con Yule: lo que es falso no es la correlación sino la afirmación de una relación causal basada en esa correlación.

W

$W$

Z

$Z$

Y

$Y$

X

$X$

— Scortchi - Restablece a Monica

1

Sí, pero aquí, la regresión comenzó con X e Y. ¿No importa qué variables son, por así decir, las variables?

— Peter Flom - Restablece a Monica

2

No puedo ver por qué debería hacerlo, excepto en la medida en que @Glen_b señala en su primera oración, si su objetivo era predecir

, entonces un alto coeficiente de determinación de un modelo para

no es motivo de preocupación. Y, por supuesto, si tiene ideas sólidas sobre cómo se ve el término de error, un modelo es más manejable que el otro.

Y

$Y$

W

$W$

— Scortchi - Restablece a Monica

44

Planteas un buen punto acerca de W&Z, @Scortchi, pero me parece que importa cuáles consideres que son las variables que te interesan y qué variables creaste solo para obtener un mejor modelo. Cuáles son las variables reales está determinada por el significado de X, etc., en el contexto de la pregunta sustantiva. Del texto deduzco que el OP quiere entender la relación b / t X e Y, y creó W y Z para mejorar el ajuste del modelo. Es decir, en este caso concreto, me parece que Peter tiene razón, no puede intentar mejorar su modelo colocando X en ambos lados.

— gung - Restablecer a Monica

4

Hay dos elementos en el ejemplo de @ Peter, que podrían ser útiles para desenredar:

(1) Model mis-specification. The models

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} (1)

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \qquad\text{(1)}$

&

w_{i} = γ_{0} + γ_{1} z_{i} + ζ_{i} (2)

$w_i=\gamma_0 + \gamma_1 z_i + \zeta_i \qquad\text{(2)}$

, where $w_i=\sqrt{\frac{y_i}{x_i}}$ & $z_i=\sqrt{x_i}$ , can't both be true. If you re-express each in terms of the other's response they become non-linear in the parameters, with heteroskedastic errors.

w_{i} = \sqrt{\frac{β_{0}}{z_{i}^{2}} + β_{1} + \frac{ε_{i}}{z_{i}^{2}}} (1)

$w_i = \sqrt{\frac{\beta_0}{z_i^2} + \beta_1 + \frac{\varepsilon_i}{z_i^2}} \qquad\text{(1)}$

y_{i} = (γ_{0} {\sqrt{x}}_{i} + γ_{1} {\sqrt{x}}_{i} + ζ_{i} {\sqrt{x}}_{i})^{2} (2)

$y_i = (\gamma_0 \sqrt x_i + \gamma_1 \sqrt x_i + \zeta_i \sqrt x_i)^2 \qquad\text{(2)}$

If $Y$ is assumed to be a Gaussian random variable independent of $X$ , then that's a special case of Model 1 in which $\beta_1=0$ , & you shouldn't be using Model 2. But equally if $W$ is assumed to be a Gaussian random variable independent of $Z$ , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew $Y$ & $X$ to be independent Gaussian random variables, why should the relation between $W$ & $Z$ still surprise you, or would you call it spurious? The conditional expectation of $W$ can be approximated with the delta method:

E \sqrt{\frac{Y}{x}} = \frac{E \sqrt{Y}}{z} \approx \frac{\sqrt{β_{0}} + \frac{Var Y}{8 β_{0}^{3 / 2}}}{z}

$\operatorname{E} \sqrt\frac{Y}{x} = \frac{\operatorname{E}\sqrt{Y}}{z} \\ \approx \frac{\sqrt{\beta_0} + \frac{\operatorname{Var}{Y}}{8\beta_0^{3/2}}}{z}$

It is indeed a function of $z$ .

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

Neither Model 1 nor Model 2 is much use for predicting $y$ from $x$ , but both are all right for predicting $w$ from $z$ : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of $w$ against $z$ , might be tempted to think that intervening to increase $z$ will reduce $w$ —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

— Scortchi - Reinstate Monica
fuente

3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in $R^2$ that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

— Frank Harrell
fuente