P: "... ¿cómo interpreto el valor de x2" Alto "? Por ejemplo, ¿qué efecto tiene" alto "x2 en la variable de respuesta en el ejemplo que se muestra aquí?
R: Sin duda ha notado que no se menciona x2 = "High" en la salida. Por el momento se elige x2High como el "caso base". Esto se debe a que ofreció una variable de factor con la codificación predeterminada para los niveles a pesar de un orden que habría sido L / M / H de forma más natural para la mente humana. Pero "H", siendo léxico antes de "L" y "M" en el alfabeto, fue elegido por R como el caso base.
Dado que 'x2' no estaba ordenado, cada uno de los contrastes informados era relativo a x2 = "Alto", por lo que x2 == "Bajo" se estimó en -0.78 en relación a x2 = "Alto". Por el momento, la Intercepción es el valor estimado de "Y" cuando x2 = "Alto" yx1 = 0. Probablemente desee volver a ejecutar su regresión después de cambiar el orden de los niveles (pero no ordenar el factor).
x2a = factor(x2, levels=c("Low", "Medium", "High"))
Entonces su estimación 'Media' y 'Alta' estará más en línea con lo que espera.
Editar: Existen arreglos de codificación alternativos (o arreglos más precisos de la matriz del modelo). La opción predeterminada para los contrastes en R es "contrastes de tratamiento" que especifica un nivel de factor (o una combinación particular de niveles de factor) como nivel de referencia e informes diferencias medias estimadas para otros niveles o combinaciones. Sin embargo, puede hacer que el nivel de referencia sea la media general obligando a la Intercepción a ser 0 (no recomendado) o utilizando una de las otras opciones de contraste:
?contrasts
?C # which also means you should _not_ use either "c" or "C" as variable names.
Puede elegir diferentes contrastes para diferentes factores, aunque hacerlo parecería imponer una carga interpretativa adicional. S-Plus usa los contrastes de Helmert de manera predeterminada, y SAS usa los contrastes de tratamiento, pero elige el último nivel de factor en lugar del primero como nivel de referencia.