He analizado muchos conjuntos de datos R, publicaciones en DASL y en otros lugares, y no encuentro muchos buenos ejemplos de conjuntos de datos interesantes que ilustren el análisis de covarianza para datos experimentales. Existen numerosos conjuntos de datos "de juguete" con datos artificiales en los libros de texto de estadísticas.
Me gustaría tener un ejemplo donde:
- Los datos son reales, con una historia interesante.
- Hay al menos un factor de tratamiento y dos covariables.
- Al menos una covariable se ve afectada por uno o más de los factores de tratamiento, y uno no se ve afectado por los tratamientos.
- Experimental en lugar de observacional, preferiblemente
Antecedentes
Mi verdadero objetivo es encontrar un buen ejemplo para poner en la viñeta de mi paquete R. Pero un objetivo más amplio es que las personas necesitan ver buenos ejemplos para ilustrar algunas preocupaciones importantes en el análisis de covarianza. Considere el siguiente escenario inventado (y comprenda que mi conocimiento de la agricultura es superficial en el mejor de los casos).
- Hacemos un experimento donde los fertilizantes se asignan al azar a las parcelas, y se siembra un cultivo. Después de un período de crecimiento adecuado, cosechamos el cultivo y medimos algunas características de calidad, esa es la variable de respuesta. Pero también registramos la precipitación total durante el período de crecimiento y la acidez del suelo en el momento de la cosecha, y, por supuesto, qué fertilizante se usó. Así tenemos dos covariables y un tratamiento.
La forma habitual de analizar los datos resultantes sería ajustar un modelo lineal con el tratamiento como factor y los efectos aditivos para las covariables. Luego, para resumir los resultados, se calculan los "medios ajustados" (también conocidos como medios de mínimos cuadrados), que son predicciones del modelo para cada fertilizante, con la precipitación promedio y la acidez promedio del suelo. Esto pone todo en pie de igualdad, porque cuando comparamos estos resultados, mantenemos constantes las precipitaciones y la acidez.
Pero probablemente esto sea algo incorrecto, porque el fertilizante probablemente afecta la acidez del suelo y la respuesta. Esto hace que los medios ajustados sean engañosos, porque el efecto del tratamiento incluye su efecto sobre la acidez. Una forma de manejar esto sería eliminar la acidez del modelo, luego los medios ajustados por la lluvia proporcionarían una comparación justa. Pero si la acidez es importante, esta equidad tiene un gran costo, en el aumento de la variación residual.
Hay formas de evitar esto utilizando una versión ajustada de la acidez en el modelo en lugar de sus valores originales. La próxima actualización de mi paquete R lsmeans lo hará francamente fácil. Pero quiero tener un buen ejemplo para ilustrarlo. Estaré muy agradecido y debidamente reconoceré a cualquiera que pueda señalarme algunos buenos conjuntos de datos ilustrativos.