Estoy familiarizado con el concepto de variables categóricas y la respectiva codificación de variables ficticias que nos permite ajustar un nivel como línea de base para evitar la colinealidad. También estoy familiarizado con la forma de interpretar las estimaciones de parámetros de tales modelos: el cambio previsto en el resultado para un nivel ajustado determinado del predictor categórico, en relación con la categoría de referencia.
De lo que no estoy seguro es de cómo interpretar un conjunto de variables independientes que son proporciones que suman uno . Nuevamente tenemos colinealidad si ajustamos todas las proporciones en el modelo, por lo que presumiblemente tendríamos que dejar una categoría como línea de base. También supongo que miraría el tipo III SS para la prueba general de la importancia de esta variable. Sin embargo, ¿cómo interpretamos las estimaciones de los parámetros para esos niveles ajustados en el modelo frente a los que se consideran de referencia?
Un ejemplo : a nivel de código postal, la variable independiente es la proporción de rocas metamórficas, ígneas y sedimentarias. Como sabrán, estos son los tres tipos principales de rocas, y todas las rocas están clasificadas como una de ellas. Como tal, las proporciones entre los tres suman 1. El resultado es el nivel promedio de radón en un código postal respectivo.
Si tuviera que ajustar, digamos, las proporciones metamórficas e ígneas como predictores en el modelo, dejando sedimentaria como línea de base, una prueba general de SS F tipo III de los dos niveles ajustados significaría si el tipo de roca, en su conjunto, es importante predictor del resultado (nivel promedio de radón). Luego, pude ver los valores p individuales (basados en la distribución t ) para determinar si uno o ambos tipos de roca eran significativamente diferentes de la línea de base.
Sin embargo, cuando se trata de las estimaciones de parámetros, mi cerebro sigue queriendo interpretarlas puramente como el cambio previsto en el resultado entre grupos (tipos de rocas), y no entiendo cómo incorporar el hecho de que están en forma como proporciones .
Si la estimación para metamórfica fuera, digamos, 0.43, la interpretación no es simplemente que el nivel de radón promedio predicho aumenta en 0.43 unidades cuando la roca es metamórfica vs. sedimentaria. Sin embargo, la interpretación tampoco es simplemente para algún tipo de aumento de la unidad (digamos 0.1) en la proporción del tipo de roca metamórfica, porque esto no refleja el hecho de que también es relativo a la línea base ( sedimentaria ) y, además, ese cambio La proporción de metamórficos cambia inherentemente la proporción del otro nivel de roca ajustado en el modelo, ígneo .
¿Alguien tiene una fuente que proporcione la interpretación de dicho modelo, o podría proporcionar un breve ejemplo aquí si no?