¿Cuál es el significado de los coeficientes de regresión logística?


42

Actualmente estoy leyendo un documento sobre el lugar de votación y la preferencia de votación en las elecciones de 2000 y 2004. En él, hay un gráfico que muestra los coeficientes de regresión logística. De cursos de años atrás y un poco de lecturaEntiendo que la regresión logística es una forma de describir la relación entre múltiples variables independientes y una variable de respuesta binaria. Lo que me confunde es que, dada la tabla a continuación, porque el Sur tiene un coeficiente de regresión logística de .903, ¿eso significa que el 90.3% de los sureños votan republicano? Debido a la naturaleza logística de la métrica, esta correlación directa no existe. En cambio, supongo que solo se puede decir que el sur, con .903, vota a los republicanos más que las montañas / llanuras, con la regresión de .506. Dado que este es el caso, ¿cómo sé qué es significativo y qué no lo es? ¿Es posible extrapolar un porcentaje de votos republicanos dado este coeficiente de regresión logística? Tabla que muestra los coeficientes de regresión logística

Como nota al margen, edite mi publicación si algo se indica incorrectamente


Esto es más una pregunta de seguimiento (y probablemente no debería publicarlo), pero ¿descubriste una buena manera de "es posible extrapolar un porcentaje" porque eso es más o menos lo que estoy buscando?
Stefan Andersson

2
Creo que sería mejor para usted formular esto como una pregunta independiente y publicarla por separado en lugar de como una respuesta aquí.
cardenal

Si alguien se está preguntando sobre el documento, es SC McKee y JM Teigen Sondeando los rojos y azules: Seccionismo y ubicación de los votantes en las elecciones presidenciales de Estados Unidos de 2000 y 2004 (2009) Geografía política
Alex Nelson

Respuestas:


36

Que el autor ha forzado a alguien tan serio como usted tenga una pregunta como esta es la ilustración convincente de por qué la práctica - Todavía manera muy común - de confinar la notificación de los resultados del modelo de regresión a una tabla como ésta es tan inaceptable.

  1. Puede, como se señaló, tratar de transformar el coeficiente logit en una indicación significativa del efecto que se estima para el predictor en cuestión, pero eso es engorroso y no transmite información sobre la precisión de la predicción, que generalmente es bastante importante en un modelo de regresión logística (sobre votación en particular).

  2. Además, el uso de múltiples asteriscos para informar "niveles" de significancia refuerza la idea errónea de que los valores p son un índice significativo del tamaño del efecto ("¡¡wow, ¡uno tiene 3 asteriscos !!"); por el amor de Dios, con N de 10,000 a 20,000, las diferencias completamente triviales serán "significativas" en p <.001 bla, bla.

  3. No hay absolutamente ninguna necesidad de mistificar de esta manera. El modelo de regresión logística es una ecuación que puede usarse (a través de un cálculo determinado o mejor simulación) para predecir la probabilidad de un resultado condicional a valores específicos para predictores, sujeto a error de medición. Entonces el investigador debe informarcuál es el impacto de los predictores de interés en la probabilidad de la variable de resultado de interés, y el IC asociado, medido en unidades cuya importancia práctica se puede comprender fácilmente. Para asegurar un agarre rápido, los resultados deben mostrarse gráficamente. Aquí, por ejemplo, el investigador podría informar que ser un votante rural en lugar de un votante urbano aumenta la probabilidad de votar republicano, todo lo demás igual, por X puntos porcentuales (supongo que alrededor de 17 en 2000; "dividir por 4" es una heurística razonable) +/- x% a un nivel de confianza de 0.95, si eso es algo útil para saber.

  4. La notificación de pseudo R ^ 2 también es una señal de que el modelador está involucrado en un ritual estadístico en lugar de cualquier intento de iluminar. Hay decenas de formas de calcular "pseudo R ^ 2"; uno podría quejarse de que el que se usa aquí no está especificado, pero ¿por qué molestarse? Todos están al lado de sin sentido. La única razón por la que alguien usa pseudo R ^ 2 es porque ellos o el revisor que los está torturando aprendieron (probablemente hace 25 o más años) que la regresión lineal de OLS es el santo grial de las estadísticas y cree que lo único que uno está tratando de descubrir se "explica la varianza". Hay muchas formas defendibles de evaluar la adecuación del ajuste general del modelo para el análisis logístico, y la razón de probabilidad transmite información significativa para comparar modelos que reflejan hipótesis alternativas. King, G. Cómo no mentir con las estadísticas. A.m. J. Pol. Sci. 30, 666-687 (1986).

  5. Si lee un documento en el que los informes se limitan más o menos a una tabla como esta, no se confunda, no se deje intimidar y definitivamente no se impresione; en cambio, enojarse y decirle al investigador que él o ella está haciendo un trabajo pésimo (particularmente si él o ella está contaminando su entorno intelectual local con misticismo y asombro), increíble cuántos pensadores completamente mediocres engañan a las personas inteligentes para que piensen que saben algo / c pueden producir una tabla que este último no puede entender). Para exposiciones inteligentes y templadas de estas ideas, ver King, G., Tomz, M. y Wittenberg., J. Aprovechar al máximo los análisis estadísticos: mejorar la interpretación y la presentación . A.m. J. Pol. Sci. 44, 347-361 (2000); y Gelman, A., Pasarica, C. y Dodhia, R.Practiquemos lo que predicamos: Convertir tablas en gráficos . A.m. Stat. 56, 121-130 (2002).


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
heurística: dividir por 4 - logit coeff / 4 es aprox pct-pt diff en prob. a partir de 1 unidad de cambio. Eso no es lo mismo que decir "persona w / βsubn charcteristic = z es x% probable". No solo (como se indicó) es necesario agregar βsub0 y restar la probabilidad asociada con la clase ref. También es necesario tener en cuenta la colinealidad predictiva. B / c siendo el sur se correlaciona con otros predictores, no será cierto ese problema. de la votación republicana sureña es βsub0: probabilidades de registro transformadas para NE más probabilidades de registro transformadas para sur. Mejor decir, "todo lo demás igual, ser del sur predice un cambio de punto x pct en el problema de"
dmk38

1
"Las probabilidades reales han pasado de 0,43 a 1". ¿De dónde provienen 0,43?
Monica Heddneck

0.30,3/ /(1-0,3)0,43

6

Los coeficientes en la regresión logística representan la tendencia de una determinada región / grupo demográfico a votar republicano, en comparación con una categoría de referencia. Un coeficiente positivo significa que es más probable que la región vote a los republicanos, y viceversa para un coeficiente negativo; un valor absoluto mayor significa una tendencia más fuerte que un valor menor.

Las categorías de referencia son "Noreste" y "votante urbano", por lo que todos los coeficientes representan contrastes con este tipo de votante en particular.

En general, tampoco hay restricción en los coeficientes en una regresión logística para estar en [0, 1], incluso en valor absoluto. Observe que el artículo de Wikipedia en sí tiene un ejemplo de regresión logística con coeficientes de -5 y 2.


5

También preguntaste "¿cómo sé qué es importante y qué no?" (Supongo que quiere decir estadísticamente significativo, ya que la importancia práctica o sustantiva es otra cuestión). Los asteriscos en la tabla se refieren a la nota al pie: algunos efectos se observan como pequeños valores p . Estos se obtienen mediante una prueba de Wald de la importancia de cada coeficiente. Suponiendo un muestreo aleatorio, p <.05 significa que, si no hubiera tal efecto en la población más grande, la probabilidad de ver una conexión tan fuerte como la observada, o más fuerte, en una muestra de este tamaño sería menor que .05 . Verá muchos hilos en este sitio discutiendo el punto sutil pero importante relacionado que p <.05 no significa que hay una probabilidad de 0.05 de que no haya conexión en la población más grande.


5

Permítanme subrayar la importancia de lo que notaron rolando2 y dmk38: la importancia es comúnmente mal interpretada, y existe un alto riesgo de que eso suceda con esa presentación tabular de resultados.

Paul Schrodt recientemente ofreció una buena descripción del problema:

Los investigadores encuentran casi imposible adherirse a la interpretación correcta de la prueba de significación. El valor p solo le dice la probabilidad de que obtenga un resultado en las condiciones [generalmente] completamente poco realistas de la hipótesis nula. Lo que no es lo que quiere saber, generalmente desea saber la magnitud del efecto de una variable independiente, dados los datos. Esa es una pregunta bayesiana, no una pregunta frecuente. En cambio, vemos, constantemente, el valor p interpretado como si le diera la fuerza de la asociación: este es el omnipresente Culto místico de las estrellas y los valores P que impregna nuestros diarios. (Fn) Esto no es lo que dice el valor p , ni lo hará nunca.

En mi experiencia, este error es casi imposible de evitar: incluso los analistas muy cuidadosos que son plenamente conscientes del problema a menudo cambian de modo cuando discuten verbalmente sus resultados, incluso si han evitado el problema en una exposición escrita. Y ni siquiera especulemos sobre las miles de horas y galones de tinta que hemos gastado corrigiendo esto en trabajos de posgrado.

(fn) La nota al pie también informa sobre otro tema, mencionado por dmk38: “[el omnipresente culto místico de las estrellas y los valores P] suplantó el culto anterior –e igualmente penetrante– del culto al más alto R2, demolido… por King (1986) . "


oh-- Acabo de agregar King cita a mi respuesta editada. De hecho, el artículo demuele la manía R ^ 2 (aún endémica de la econometría) incluso cuando la estadística tiene un significado, para la regresión OLS. King también señala que ese pseudo R ^ 2 es un galimatías que fue fabricado para extender la falta de consideración asociada con la "variación explicada".
dmk38
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.