¿Cuál es la forma más adecuada de transformar proporciones cuando son una variable independiente?

Pensé que entendía este problema, pero ahora no estoy tan seguro y me gustaría consultar con otros antes de continuar.

Tengo dos variables Xy Y. Yes una relación, y no está limitada por 0 y 1 y generalmente se distribuye normalmente. Xes una proporción y está delimitada por 0 y 1 (va de 0.0 a 0.6). Cuando ejecuto una regresión lineal de Y ~ Xy me entero de que Xy Yson significativamente relacionada linealmente. Hasta aquí todo bien.

Pero entonces investigar más y me pongo a pensar que tal vez Xy Y's relación podría ser más curvilínea que lineal. Para mí, parece que la relación de Xy Ypodría estar más cerca de Y ~ log(X), Y ~ sqrt(X)o Y ~ X + X^2, o algo por el estilo. Tengo razones empíricas para suponer que la relación podría ser curvilínea, pero no razones para suponer que una relación no lineal podría ser mejor que otra.

Tengo un par de preguntas relacionadas desde aquí. Primero, mi Xvariable toma cuatro valores: 0, 0.2, 0.4 y 0.6. Cuando log-o raíz cuadrada-transformar estos datos, el espacio entre estos valores se distorsiona para que los valores 0 estén mucho más lejos de todos los demás. Por falta de una mejor manera de preguntar, ¿es esto lo que quiero? Supongo que no, porque obtengo resultados muy diferentes dependiendo del nivel de distorsión que acepto. Si esto no es lo que quiero, ¿cómo debo evitarlo?

En segundo lugar, para transformar estos datos, debo agregar una cantidad a cada Xvalor porque no puede tomar el registro de 0. Cuando agrego una cantidad muy pequeña, digamos 0.001, obtengo una distorsión muy sustancial. Cuando agrego una cantidad mayor, digamos 1, obtengo muy poca distorsión. ¿Hay una cantidad "correcta" para agregar a una Xvariable? ¿O es inapropiado agregar algo a una Xvariable en lugar de elegir una transformación alternativa (por ejemplo, raíz de cubo) o modelo (por ejemplo, regresión logística)?

Lo poco que he podido encontrar sobre este tema me hace sentir que debo pisar con cuidado. Para otros usuarios de R, este código crearía algunos datos con una estructura similar a la mía.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

— Bajcz
fuente

¿Dices que Y es una proporción, pero en tus datos está entre 6 y 10?

Sí, arreglé esto arriba: es una relación, no una proporción.

— Bajcz

La pregunta principal sobre la transformación de proporciones (usaré como símbolo, de manera similar pero no idéntica a su notación) permite algunos comentarios generales. $x$

A continuación, considero que el motivo principal para transformar las proporciones que son covariables (predictores, variables independientes) es mejorar la aproximación a la linealidad de la relación, o si está en modo exploratorio, para obtener una idea más clara gráficamente de la forma o, de hecho, de la existencia de cualquier relación. Como de costumbre, si una covariable está (p. Ej.) Aproximadamente distribuida normalmente no es crucial como tal. (Las proporciones son un pariente no muy lejano de las variables indicadoras con valores que nunca pueden distribuirse normalmente, y las proporciones también están necesariamente delimitadas). $0, 1$

Si las proporciones pueden alcanzar ceros exactos o exactos, es esencial que se defina una transformación para esos límites, lo que descarta claramente , ya que es indeterminado. Más allá de eso, una forma particular idealmente requiere alguna justificación sustantiva (científica, práctica), pero a falta de algún análisis simple que sea altamente sensible al valor de , como usted insinúa. $\log x$ $\log 0$ $\log (x + c)$ $c$

Esto es un poco más fácil de ver con logaritmos a base , por lo que consideremos temporalmente para que asigne a . $10$ $c = 10^k$ $\log_{10} (x + 10^k)$ $x = 0$ $k$

$k = 0, c = 1$ $x = 0$ $0$ $x = 1$ $0.301$ $k = -3, c = 0.001$ $x = 0$ $-3$ $x = 1$ $0$

$k = -6, -9,$ $0$ $x = 1$ $0$

$c$ $0$

$\log (x + c)$ $\log x$ $c$ $x$ $x$ $\log x$ $x$ $x \downarrow 0$

$x = 0$ $x = 1$

$x^p$ $x = 0, 1$ $0$

$x^p - (1 - x)^p$ $p = 1/2$ $p = 1/3$

$\text{logit}\ x = \log x - \log (1 - x)$ $p$ $0$ $x = 0, 1$ $p \ne 0$

$0$ $1$

$0.01$ $0.02$ $x$ $0.01$
$0.98$ $0.99$ $x$ $0.01$ $1 - x$
$0.50$ $0.51$ $x$ $0.01$

$0$ $1$

$x = 0, 1$

$\log(x + 0.001)$

Los dos puntos principales que deseo destacar son que

$\log (x + c)$ $x$
Para sus datos de ejemplo, ninguna transformación que intenté parece ayudar.

Al mismo tiempo, otras posibilidades están lejos de agotarse. (Notablemente, no probé la raíz cuadrada o la raíz cúbica, y subrayé que en muchos otros problemas podrían ser candidatos obvios y serios).

$0$ $1$

$R^2 = 3.7$ $= 0.994$

$y$ $6$ $10$

EDITAR: Los datos originales podrían trazarse aquí porque el OP publicó brevemente datos, pero luego los eliminó.

Otros hilos aquí que usan poderes plegados incluyen

Transformación de datos de proporción: cuando la raíz cuadrada de arcsin no es suficiente

Regresión: diagrama de dispersión con bajo R al cuadrado y altos valores de p

Trazar un conjunto de datos muy sesgado

— Nick Cox
fuente

Excelente respuesta y muy minuciosa. Creo que debería decir que mi Yes una razón en lugar de una proporción, lo que probablemente sea una diferencia bastante sustancial, por lo que fue bueno de su parte señalarlo.

— Bajcz

Las proporciones están delimitadas según las defino. Gracias por la aclaración, que no hace ninguna diferencia en mi análisis (por eso lo etiqueté como un pequeño detalle).

— Nick Cox

Comentario adicional: en principio, puede verificar la curvatura, etc. utilizando splines o suavizadores, pero con solo 4 niveles distintos del predictor no es fácil. Consideraría la regresión cuantil para sus datos.

— Nick Cox

x^{2}

$x^2$

x^{3}

$x^3$

1 ↓

$1\downarrow$

0 ↑

$0\uparrow$

x = 0, 1

$x = 0,1$