Interpretar proporciones que suman uno como variables independientes en regresión lineal


13

Estoy familiarizado con el concepto de variables categóricas y la respectiva codificación de variables ficticias que nos permite ajustar un nivel como línea de base para evitar la colinealidad. También estoy familiarizado con la forma de interpretar las estimaciones de parámetros de tales modelos: el cambio previsto en el resultado para un nivel ajustado determinado del predictor categórico, en relación con la categoría de referencia.

De lo que no estoy seguro es de cómo interpretar un conjunto de variables independientes que son proporciones que suman uno . Nuevamente tenemos colinealidad si ajustamos todas las proporciones en el modelo, por lo que presumiblemente tendríamos que dejar una categoría como línea de base. También supongo que miraría el tipo III SS para la prueba general de la importancia de esta variable. Sin embargo, ¿cómo interpretamos las estimaciones de los parámetros para esos niveles ajustados en el modelo frente a los que se consideran de referencia?

Un ejemplo : a nivel de código postal, la variable independiente es la proporción de rocas metamórficas, ígneas y sedimentarias. Como sabrán, estos son los tres tipos principales de rocas, y todas las rocas están clasificadas como una de ellas. Como tal, las proporciones entre los tres suman 1. El resultado es el nivel promedio de radón en un código postal respectivo.

Si tuviera que ajustar, digamos, las proporciones metamórficas e ígneas como predictores en el modelo, dejando sedimentaria como línea de base, una prueba general de SS F tipo III de los dos niveles ajustados significaría si el tipo de roca, en su conjunto, es importante predictor del resultado (nivel promedio de radón). Luego, pude ver los valores p individuales (basados ​​en la distribución t ) para determinar si uno o ambos tipos de roca eran significativamente diferentes de la línea de base.

Sin embargo, cuando se trata de las estimaciones de parámetros, mi cerebro sigue queriendo interpretarlas puramente como el cambio previsto en el resultado entre grupos (tipos de rocas), y no entiendo cómo incorporar el hecho de que están en forma como proporciones .

Si la estimación para metamórfica fuera, digamos, 0.43, la interpretación no es simplemente que el nivel de radón promedio predicho aumenta en 0.43 unidades cuando la roca es metamórfica vs. sedimentaria. Sin embargo, la interpretación tampoco es simplemente para algún tipo de aumento de la unidad (digamos 0.1) en la proporción del tipo de roca metamórfica, porque esto no refleja el hecho de que también es relativo a la línea base ( sedimentaria ) y, además, ese cambio La proporción de metamórficos cambia inherentemente la proporción del otro nivel de roca ajustado en el modelo, ígneo .β

¿Alguien tiene una fuente que proporcione la interpretación de dicho modelo, o podría proporcionar un breve ejemplo aquí si no?


2
+1 A menudo, las proporciones no tienen relaciones lineales con la respuesta. Si las reparametrizaciones como mejoraran el modelo, también permitirían interpretaciones simples y naturales. ¿Has examinado la linealidad en tus datos? (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber

1
No, pero supongo que será problemático, especialmente porque muchas de las "proporciones" en realidad salieron como 0 y 1, o valores muy cercanos a 0 y 1, y por lo tanto, esencialmente están actuando como binarios de todos modos. Como tal, es probable que hagamos grupos reales de ellos (y eliminemos las proporciones), pero esto aún despertó mi interés en cuanto a cuál sería la interpretación correcta, hipotéticamente.
Meg

Es justo, es una buena pregunta.
whuber

2
λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1

2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

Respuestas:


8

Como seguimiento y lo que creo que es la respuesta correcta (me parece razonable): publiqué esta pregunta en el servidor de listas de ASA Connect, y recibí la siguiente respuesta de Thomas Sexton en Stony Brook:

"Su modelo de regresión lineal estimado se ve así:

ln (Radón) = (una expresión lineal en otras variables) + 0.43M + 0.92I

donde M e I representan los porcentajes de rocas metamórficas e ígneas, respectivamente, en el código postal. Estás limitado por:

M + I + S = 100

donde S representa los porcentajes de roca sedimentaria en el código postal.

La interpretación de 0.43 es que un aumento de un punto porcentual en M está asociado con un aumento de 0.43 en ln (Radón) manteniendo todas las demás variables en el modelo fijo . Por lo tanto, el valor de I no puede cambiar, y la única forma de tener un aumento de un punto porcentual en M mientras se cumple la restricción es tener una disminución de un punto porcentual en S, la categoría omitida.

Por supuesto, este cambio no puede ocurrir en los códigos postales en los que S = 0, pero una disminución en M y un aumento correspondiente en S sería posible en dichos códigos postales ".

Aquí está el enlace al subproceso ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476d3ddf&sb06f2f9f2f2f2f2f2f2f2

Estoy publicando esto como la respuesta correcta aceptada, pero todavía estoy abierto a una discusión adicional si alguien tiene algo que agregar.


Un consejo sería ir al hilo ASA, ya que hay bastante discusión que cuestiona la respuesta proporcionada aquí.
Maxim.K

@ Maxim.K: ¿Te refieres a mi propio hilo ASA que he vinculado anteriormente? Si es así, sí, hubo muchas advertencias sin respuesta, y todavía no estoy completamente seguro de la respuesta "correcta" (si es que existe alguna). Es por eso que agregué el calificador, "Estoy publicando esto como la respuesta correcta aceptada, pero todavía estoy abierto a más discusiones si alguien tiene algo que agregar".
Meg
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.