Pensé que entendía este problema, pero ahora no estoy tan seguro y me gustaría consultar con otros antes de continuar.
Tengo dos variables X
y Y
. Y
es una relación, y no está limitada por 0 y 1 y generalmente se distribuye normalmente. X
es una proporción y está delimitada por 0 y 1 (va de 0.0 a 0.6). Cuando ejecuto una regresión lineal de Y ~ X
y me entero de que X
y Y
son significativamente relacionada linealmente. Hasta aquí todo bien.
Pero entonces investigar más y me pongo a pensar que tal vez X
y Y
's relación podría ser más curvilínea que lineal. Para mí, parece que la relación de X
y Y
podría estar más cerca de Y ~ log(X)
, Y ~ sqrt(X)
o Y ~ X + X^2
, o algo por el estilo. Tengo razones empíricas para suponer que la relación podría ser curvilínea, pero no razones para suponer que una relación no lineal podría ser mejor que otra.
Tengo un par de preguntas relacionadas desde aquí. Primero, mi X
variable toma cuatro valores: 0, 0.2, 0.4 y 0.6. Cuando log-o raíz cuadrada-transformar estos datos, el espacio entre estos valores se distorsiona para que los valores 0 estén mucho más lejos de todos los demás. Por falta de una mejor manera de preguntar, ¿es esto lo que quiero? Supongo que no, porque obtengo resultados muy diferentes dependiendo del nivel de distorsión que acepto. Si esto no es lo que quiero, ¿cómo debo evitarlo?
En segundo lugar, para transformar estos datos, debo agregar una cantidad a cada X
valor porque no puede tomar el registro de 0. Cuando agrego una cantidad muy pequeña, digamos 0.001, obtengo una distorsión muy sustancial. Cuando agrego una cantidad mayor, digamos 1, obtengo muy poca distorsión. ¿Hay una cantidad "correcta" para agregar a una X
variable? ¿O es inapropiado agregar algo a una X
variable en lugar de elegir una transformación alternativa (por ejemplo, raíz de cubo) o modelo (por ejemplo, regresión logística)?
Lo poco que he podido encontrar sobre este tema me hace sentir que debo pisar con cuidado. Para otros usuarios de R, este código crearía algunos datos con una estructura similar a la mía.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)