Sinceramente espero haber formulado esta pregunta de tal manera que pueda responderse definitivamente; si no, ¡hágamelo saber y volveré a intentarlo! También debería adivinar que utilizaré R para estos análisis.
Tengo varias medidas de las plant performance (Ys)
que sospecho que fueron influenciadas por cuatro tratamientos que impuse flower thinning (X1), fertilization (X2), leaf clipping (X3)
, y biased flower thinning (X4)
. Para todos los Y posibles, N es al menos 242, por lo que mis tamaños de muestra fueron grandes. Todas las parcelas se sometieron a adelgazamiento o no, pero cada parcela también se sometió a uno (y solo uno) de los otros tres tratamientos (o no, también hubo parcelas de control). La idea de este diseño era probar si los otros tres tratamientos eran capaces de "enmascarar" o "mejorar" los efectos del adelgazamiento. Por lo tanto, por diseño, los últimos tres tratamientos (X2-X4) no pudieron interactuar entre sí porque no se cruzaron, pero cada uno puede interactuar con el adelgazamiento de las flores, y probablemente lo hagan.
Mis hipótesis explícitas son que 1) el adelgazamiento de la floración será significativo y que 2) los términos de interacción X1*X2, X1*X3, and X1*X4,
entre el adelgazamiento de las flores y los otros tres tratamientos también serán significativos. Es decir, el adelgazamiento de las flores debería importar, pero las formas en que importa deberían modificarse significativamente por lo que hicieron los otros tres tratamientos.
Me gustaría incluir toda esta información en un modelo mixto:
Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)
Pero hay un problema: tengo buenas razones para creer que los efectos del adelgazamiento en Y no son lineales. Probablemente son cuadráticos, pero tal vez incluso cúbicos en algunos casos. Esto se debe a que es muy probable que los efectos del adelgazamiento sobre el rendimiento aumenten más rápidamente a niveles más altos de adelgazamiento. Si trato de modelar esta relación no lineal a través de la ecuación anterior agregando términos cuadráticos y cúbicos para X1, entonces no estoy seguro de cómo modelar los términos de interacción: ¿se supone que debo incluir todas las combinaciones posibles de X1, (X1) ^ 2 y (X1) ^ 3 * X2, X3 y X4? Porque eso parece una gran cantidad de parámetros para tratar de estimar, incluso con la cantidad de puntos de datos que tengo, y no estoy seguro de cómo interpretar los resultados que obtendría. Dicho esto, no tengo ninguna razón biológica para pensar que esta sería una manera imprudente de modelar la situación.
Entonces, tengo tres pensamientos sobre cómo abordar este problema:
- Primero, ajuste un modelo más pequeño, por ejemplo
Y ~ X1 + X1^2 + X^3 + Random effects
, con el único objetivo de determinar si la relación entre adelgazamiento e Y es lineal, cuadrática o cúbica, y luego transforme el adelgazamiento a través de una raíz cuadrada o cúbica para linealizar la relación adecuadamente. A partir de ahí, los términos de interacción se pueden modelar como anteriormente con la variable transformada.- Suponga que las interacciones significativas, si ocurren, afectan solo uno de los términos X1 (es decir, solo el término lineal, cuadrático o cúbico), y modele las interacciones en consecuencia. Ni siquiera estoy seguro de si este enfoque tiene sentido.
- Simplemente ajuste el "modelo completo" con cada término de interacción posible entre los términos de adelgazamiento y los otros tratamientos como se discutió anteriormente. Luego, elimine términos de interacción insignificantes y use gráficos y otras técnicas para interpretar los resultados.
¿Cuál de estos enfoques, si alguno, tiene más sentido y por qué, dado que estoy interesado en la prueba de hipótesis y no en la selección de modelos? En particular, si el # 1 anterior no tiene sentido, ¿por qué es eso? ¡He leído este artículo y este artículo y he tratado de digerir lo que podrían significar para mí, pero cualquier fuente de lecturas adicionales también sería muy apreciada!