Pensé que entendía este problema, pero ahora no estoy tan seguro y me gustaría consultar con otros antes de continuar.
Tengo dos variables Xy Y. Yes una relación, y no está limitada por 0 y 1 y generalmente se distribuye normalmente. Xes una proporción y está delimitada por 0 y 1 (va de 0.0 a 0.6). Cuando ejecuto una regresión lineal de Y ~ Xy me entero de que Xy Yson significativamente relacionada linealmente. Hasta aquí todo bien.
Pero entonces investigar más y me pongo a pensar que tal vez Xy Y's relación podría ser más curvilínea que lineal. Para mí, parece que la relación de Xy Ypodría estar más cerca de Y ~ log(X), Y ~ sqrt(X)o Y ~ X + X^2, o algo por el estilo. Tengo razones empíricas para suponer que la relación podría ser curvilínea, pero no razones para suponer que una relación no lineal podría ser mejor que otra.
Tengo un par de preguntas relacionadas desde aquí. Primero, mi Xvariable toma cuatro valores: 0, 0.2, 0.4 y 0.6. Cuando log-o raíz cuadrada-transformar estos datos, el espacio entre estos valores se distorsiona para que los valores 0 estén mucho más lejos de todos los demás. Por falta de una mejor manera de preguntar, ¿es esto lo que quiero? Supongo que no, porque obtengo resultados muy diferentes dependiendo del nivel de distorsión que acepto. Si esto no es lo que quiero, ¿cómo debo evitarlo?
En segundo lugar, para transformar estos datos, debo agregar una cantidad a cada Xvalor porque no puede tomar el registro de 0. Cuando agrego una cantidad muy pequeña, digamos 0.001, obtengo una distorsión muy sustancial. Cuando agrego una cantidad mayor, digamos 1, obtengo muy poca distorsión. ¿Hay una cantidad "correcta" para agregar a una Xvariable? ¿O es inapropiado agregar algo a una Xvariable en lugar de elegir una transformación alternativa (por ejemplo, raíz de cubo) o modelo (por ejemplo, regresión logística)?
Lo poco que he podido encontrar sobre este tema me hace sentir que debo pisar con cuidado. Para otros usuarios de R, este código crearía algunos datos con una estructura similar a la mía.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

