En una regresión, el término de interacción elimina ambos efectos directos relacionados. ¿Dejo caer la interacción o informo el resultado? La interacción no era parte de la hipótesis original.
En una regresión, el término de interacción elimina ambos efectos directos relacionados. ¿Dejo caer la interacción o informo el resultado? La interacción no era parte de la hipótesis original.
Respuestas:
Creo que este es complicado; Como insinúa, aquí hay un 'riesgo moral': si no hubiera mirado la interacción en absoluto, sería libre y claro, pero ahora que tiene sospecha de dragado de datos si la abandona.
La clave es probablemente un cambio en el significado de sus efectos cuando pasa del modelo de efectos principales solo al modelo de interacción. Lo que obtienes por los "efectos principales" depende en gran medida de cómo se codifican tus tratamientos y contrastes. En R, el valor predeterminado es el tratamiento contrasta con los niveles de primer factor (los que tienen los primeros nombres en orden alfabético a menos que haya hecho todo lo posible para codificarlos de manera diferente) como los niveles de referencia.
Digamos (por simplicidad) que tiene dos niveles, 'control' y 'trt', para cada factor. Sin la interacción, el significado del parámetro 'v1.trt' (asumiendo que el tratamiento contrasta como el valor predeterminado en R) es "diferencia promedio entre 'v1.control' y el grupo 'v1.trt'"; el significado del parámetro 'v2.trt' es "diferencia promedio entre 'v2.control' y 'v2.trt'".
Con la interacción, 'v1.trt' es la diferencia promedio entre 'v1.control' y 'v1.trt' en el grupo 'v2.control' , y de manera similar 'v2.trt' es la diferencia promedio entre los grupos v2 en el grupo 'v1.control'. Por lo tanto, si tiene efectos de tratamiento bastante pequeños en cada uno de los grupos de control, pero un efecto importante en los grupos de tratamiento, podría ver fácilmente lo que está viendo.
Sin embargo, la única forma en que puedo ver que esto suceda sin un término de interacción significativo es si todos los efectos son bastante débiles (de modo que lo que realmente quiere decir con "el efecto desapareció" es que pasó de p = 0.06 a p = 0.04, a través de la línea de significado mágico).
Otra posibilidad es que esté 'usando demasiados grados de libertad', es decir, las estimaciones de los parámetros en realidad no cambian tanto, pero el término de error residual se infla lo suficiente al tener que estimar otros 4 [= (2- 1) * (5-1)] parámetros que sus términos significativos se vuelven no significativos. Nuevamente, solo esperaría esto con un pequeño conjunto de datos / efectos relativamente débiles.
Una posible solución es moverse para sumar contrastes, aunque esto también es delicado: debe estar convencido de que el "efecto promedio" es significativo en su caso. Lo mejor es trazar sus datos y observar los coeficientes y comprender lo que está sucediendo en términos de los parámetros estimados.
Espero que ayude.
¿Estás seguro de que las variables se han expresado adecuadamente? Considere dos variables independientes y X 2 . La declaración del problema afirma que está obteniendo un buen ajuste en el formulario
Esto puede ser reescrito
es decir, si vuelve a expresar sus variables en el formulario
entonces el modelo es lineal y probablemente tiene residuos homoscedasticos:
Este análisis muestra cómo es posible, incluso probable en algunas aplicaciones, tener un modelo en el que los únicos efectos parecen ser interacciones. Esto surge cuando las variables (independientes, dependientes o ambas) se le presentan de forma inadecuada y sus logaritmos son un objetivo más efectivo para el modelado. Las distribuciones de las variables y de los residuos iniciales proporcionan las pistas necesarias para determinar si este puede ser el caso: las distribuciones sesgadas de las variables y la heterocedasticidad de los residuos (específicamente, que tienen variaciones aproximadamente proporcionales a los valores pronosticados) son los indicadores.
Esto generalmente introduce una alta multicolinealidad ya que el producto se correlacionará fuertemente con ambas variables originales. Con la multicolinealidad, las estimaciones de parámetros individuales dependen en gran medida de qué otras variables se consideran, como en su caso. Como contramedida, centrar las variables a menudo reduce la multicolinealidad cuando se considera la interacción.
No estoy seguro de si esto se aplica directamente a su caso, ya que parece tener predictores categóricos, pero utiliza el término "regresión" en lugar de "ANOVA". Por supuesto, el último caso es esencialmente el mismo modelo, pero solo después de elegir el esquema de codificación de contraste como explicó Ben.
Esto puede ser un problema de interpretación, un malentendido de lo que realmente es el llamado coeficiente de "efecto directo".
En los modelos de regresión con variables predictoras continuas y sin términos de interacción, es decir, sin términos que se construyan como producto de otros términos, el coeficiente de cada variable es la pendiente de la superficie de regresión en la dirección de esa variable. Es constante, independientemente de los valores de las variables, y obviamente es una medida del efecto de esa variable.
En los modelos con interacciones, es decir, con términos que se construyen como productos de otros términos, esa interpretación puede hacerse sin calificación adicional solo para variables que no están involucradas en ninguna interacción. El coeficiente de una variable que está implicado en interacciones es la pendiente de la superficie de regresión en la dirección de esa variable cuando los valores de todas las variables que interactúan con la variable en cuestión son cero , y la prueba de significación del coeficiente se refiere a la pendiente de la superficie de regresión solo en esa región del espacio predictor. Dado que no existe el requisito de que realmente haya datos en esa región del espacio, el coeficiente de efecto directo aparente puede tener poca semejanza con la pendiente de la superficie de regresión en la región del espacio predictor donde los datos se observaron realmente. No existe un verdadero "efecto directo" en tales casos; el mejor sustituto es probablemente el "efecto promedio": la pendiente de la superficie de regresión en la dirección de la variable en cuestión, tomada en cada punto de datos y promediada sobre todos los puntos de datos. Para más información sobre esto, vea ¿Por qué centrar variables independientes puede cambiar los efectos principales con moderación?