¿Hay alguna razón de lo que puedo pensar para transformar los datos con una raíz cuadrada? Quiero decir que lo que siempre observo es que el R ^ 2 aumenta. ¡Pero esto es probablemente solo por centrar los datos! Cualquier pensamiento es apreciado!
¿Hay alguna razón de lo que puedo pensar para transformar los datos con una raíz cuadrada? Quiero decir que lo que siempre observo es que el R ^ 2 aumenta. ¡Pero esto es probablemente solo por centrar los datos! Cualquier pensamiento es apreciado!
Respuestas:
En general, la regresión paramétrica / GLM supone que la relación entre la variable y cada variable es lineal, que los residuos una vez que ha ajustado el modelo siguen una distribución normal y que el tamaño de los residuos permanece casi igual en todo momento a lo largo de su (s) línea (s) ajustada (s). Cuando sus datos no se ajustan a estos supuestos, las transformaciones pueden ayudar.
Debe ser intuitivo que si es proporcional a entonces el enraizamiento cuadrado linealiza esta relación, lo que lleva a un modelo que se ajusta mejor a los supuestos y que explica más varianza (tiene mayor ). El enraizamiento cuadrado también ayuda cuando tiene el problema de que el tamaño de sus residuos aumenta progresivamente a medida que aumentan sus valores de (es decir, la dispersión de los puntos de datos alrededor de la línea ajustada se vuelve más marcada a medida que avanza). Piense en la forma de una función de raíz cuadrada: al principio aumenta abruptamente pero luego se satura. Entonces, la aplicación de una transformación de raíz cuadrada infla números más pequeños pero estabiliza los más grandes. Así que puedes pensar que empuja pequeños residuos a bajaX 2 Y R 2 Y X X X valores de se alejan de la línea ajustada y aplastan los residuos grandes a valores de altos hacia la línea. (¡Esto es taquigrafía mental, no las matemáticas adecuadas!)
Como dicen Dmitrij y ocram, esta es solo una posible transformación que ayudará en ciertas circunstancias, y herramientas como la fórmula de Box-Cox pueden ayudarlo a elegir la más útil. Aconsejaría adquirir el hábito de mirar siempre una gráfica de residuos contra valores ajustados (y también una gráfica de probabilidad normal o histograma de residuos) cuando se ajusta a un modelo. Descubrirá que a menudo terminará siendo capaz de ver de qué tipo de transformación ayudará.
La transformación de raíz cuadrada es solo un caso especial de transformación de potencia de Box-Cox (una buena descripción de Pengfi Li, podría ser una lectura útil y se encuentra aquí ), con y omitiendo un centrado.
El objetivo de las transformaciones de Box-Cox es garantizar los supuestos habituales para la retención del modelo lineal. Es decir, .
Sin embargo, este valor fijo a priori podría ser (y probablemente no sea) óptimo. En R, puede considerar una función de la car
biblioteca powerTransform
que ayude a estimar un valor óptimo para las transformaciones de Box-Cox para cada una de las variables que participaron en la regresión lineal o cualquier dato con el que trabaje (consulte example(powerTransform)
para obtener más detalles).
Cuando la variable sigue una distribución de Poisson, los resultados de la transformación de la raíz cuadrada estarán mucho más cerca de Gauss.
La matriz de distancia calculada con Bray-Curtis generalmente no es métrica para algunos datos, lo que da lugar a valores propios negativos. Una de las soluciones para superar este problema es transformarlo (logarítmico, raíz cuadrada o raíz cuadrada doble).