¿Cómo explicaría los modelos lineales generalizados a personas sin antecedentes estadísticos?


16

Siempre me cuesta explicar las técnicas estadísticas al público sin antecedentes estadísticos. Si quisiera explicar qué es GLM a esa audiencia (sin descartar la jerga estadística), ¿cuál sería la mejor manera o la más efectiva?

Usualmente explico GLM con tres partes: (1) el componente aleatorio que es variable de respuesta, (2) el componente sistemático que es un predictor lineal y (3) la función de enlace que es la "clave" para conectar (1) y (2) Luego, daría un ejemplo de regresión lineal o logística y explicaría cómo se selecciona la función de enlace en función de la variable de respuesta. Por lo tanto, actúa como la clave que conecta dos componentes.


¿Qué tipo de antecedentes tiene la audiencia? Explicar GLM a un matemático o biólogo es muy diferente.

1
Habrá pocos matemáticos sin antecedentes estadísticos, @Procrastinator. Pero su punto es bueno: tener una idea más clara de la audiencia prevista ayudará a mantener las respuestas consistentes y enfocadas. ¿Te importaría editar la pregunta para ampliar esto, Ken?
whuber

1
Veo su punto, @Procrastinator, pero esperaba obtener una respuesta fácil de entender para todos (matemáticos y / o biólogos), en general porque si no tengo antecedentes en matemáticas o biología (que es el caso), De todos modos, no sabría cómo explicarles GLM con respecto a sus antecedentes.
Ken

44
Creo que es importante tener en cuenta que puedes obtener una licenciatura, una maestría o incluso un doctorado en biología sin haber tomado una clase de estadística, incluso en muchas universidades de nivel uno. Mi título en bioquímica requirió dos semestres de cálculo introductorio y un semestre de ecuaciones diferenciales. ¡La sustancia de estas clases se olvida rápidamente porque muchos estudiantes nunca volverán a usar estas habilidades! Así que realmente creo que es necesario simplificar la explicación para los no estadísticos típicos.
Alexander

Un comentario para agregar a las respuestas a continuación; si puede cruzar el ajuste de una línea (es decir, la función de enlace y los predictores lineales), entonces la conexión a una ponderación de varianza inversa eficiente no es tan difícil de comunicar; simplemente queremos aumentar las contribuciones precisas y reducir el resto. Esto le permite evitar decir algo demasiado técnico sobre la aleatoriedad de los resultados. NB GLM se idearon como (solo) los modelos en los que IWLS se puede usar para dar el MLE, por lo que la forma de pensar sobre ellos descrita anteriormente captura la mayor parte de por qué son realmente útiles.
invitado

Respuestas:


25

Si la audiencia realmente no tiene antecedentes estadísticos, creo que trataría de simplificar la explicación un poco más. Primero, dibujaría un plano de coordenadas en el tablero con una línea, así:

y = mx + b

Todos en su charla estarán familiarizados con la ecuación para una línea simple, y = m x + b , porque eso es algo que se aprende en la escuela primaria. Así que lo mostraría junto al dibujo. Sin embargo, lo escribiría al revés, así: y=mx+b

 mx+b=y

Diría que esta ecuación es un ejemplo de una regresión lineal simple. Luego explicaría cómo usted (o una computadora) podría ajustar dicha ecuación a un diagrama de dispersión de puntos de datos, como el que se muestra en esta imagen:

Scatter plot

Diría que aquí, estamos usando la edad del organismo que estamos estudiando para predecir qué tan grande es, y que la ecuación de regresión lineal resultante que obtenemos (que se muestra en la imagen) puede usarse para predecir qué tan grande es un organismo es si sabemos su edad.

Volviendo a nuestra ecuación general m x + b = y , diría que las x son variables que pueden predecir las y, por lo que las llamamos predictores . Las y son comúnmente llamadas respuestas . mx+b=y

Luego explicaría nuevamente que este fue un ejemplo de una ecuación de regresión lineal simple, y que en realidad hay variedades más complicadas. Por ejemplo, en una variedad llamada regresión logística , las y solo pueden ser 1 o 0. Es posible que desee utilizar este tipo de modelo si está tratando de predecir una respuesta "sí" o "no", como si alguien tiene o no una enfermedad. Otra variedad especial es algo llamado regresión de Poisson , que se utiliza para analizar datos de "conteo" o "evento" (no profundizaría en esto a menos que sea realmente necesario).

Luego explicaría que la regresión lineal, la regresión logística y la regresión de Poisson son realmente ejemplos especiales de un método más general, algo llamado un "modelo lineal generalizado". Lo mejor de los "modelos lineales generalizados" es que nos permiten usar datos de "respuesta" que pueden tomar cualquier valor (como qué tan grande es un organismo en regresión lineal), tomar solo 1 o 0 (como si alguien tiene o no un enfermedad en regresión logística), o tome recuentos discretos (como el número de eventos en la regresión de Poisson).

Entonces diría que en este tipo de ecuaciones, las x (predictores) están conectadas a las y (respuestas) a través de algo que los estadísticos llaman una "función de enlace". Utilizamos estas "funciones de enlace" en los casos en que las x no están relacionadas con las y de manera lineal.

De todos modos, ¡esos son mis dos centavos sobre el tema! Tal vez mi explicación propuesta suene un poco tonta y tonta, pero si el propósito de este ejercicio es simplemente llevar la "esencia" a la audiencia, tal vez una explicación como esta no sea tan mala. Creo que es importante que el concepto se explique de forma intuitiva y que evite tirar palabras como "componente aleatorio", "componente sistemático", "función de enlace", "determinista", "función logit", etc. Al hablar con personas que realmente no tienen antecedentes estadísticos, como un biólogo o un médico típico, sus ojos se van a deslumbrar al escuchar esas palabras. No saben qué es una distribución de probabilidad, nunca han oído hablar de una función de enlace, y no saben qué es un "logit"

En su explicación a una audiencia no estadística, también me enfocaría en cuándo usar qué variedad de modelo. Podría hablar sobre cuántos predictores puede incluir en el lado izquierdo de la ecuación (he escuchado reglas generales como no más que el tamaño de su muestra dividido por diez). También sería bueno incluir una hoja de cálculo de ejemplo con datos y explicar a la audiencia cómo usar un paquete de software estadístico para generar un modelo. Luego revisaría el resultado de ese modelo paso a paso e intentaré explicar qué significan todas las letras y números diferentes. ¡Los biólogos no tienen idea de estas cosas y están más interesados ​​en aprender qué examen usar en lugar de comprender realmente las matemáticas detrás de la GUI de SPSS!

Agradecería cualquier comentario o sugerencia con respecto a mi explicación propuesta, especialmente si alguien nota errores o piensa en una mejor manera de explicarlo.


44
No todos están familiarizados con la ecuación para una línea; ni siquiera todos los estudiantes de posgrado lo son, ni todas las personas con doctorados.
Peter Flom - Restablece a Monica

66
Quiero decir, estoy seguro de que existe un estudiante graduado en el mundo que no conoce la ecuación de una línea, pero presumiblemente una audiencia a la que le gustaría explicar modelos lineales generalizados tendría al menos media pista sobre la alta álgebra a nivel escolar! : -o
Alexander

Estoy de acuerdo contigo Alexander y tu enfoque me parece muy natural. No me enfocaría demasiado en la "g" de la película (o demasiado pronto) y tampoco entraría en distinciones entre aleatorio y fijo. Por supuesto, depende de la cantidad de tiempo que tenga para explicar todo esto.
Dominic Comtois

Y=αX+βα

10

No llamaría a la respuesta un componente aleatorio. Es una combinación de un componente determinista y uno aleatorio.

log(p/(1p))[0,1]


33
Me pregunto sobre este uso de "respuesta". Nuestra audiencia prevista probablemente entenderá que significa la respuesta observada : sí o no, 0 o 1, etc. En la regresión logística modelamos algo no observado (y nunca directamente observable); a saber, la posibilidad hipotética de la respuesta. El "enlace" es simplemente una cuestión de expresar esas oportunidades como probabilidades de registro en lugar de probabilidades. La regresión logística supone que las probabilidades de registro varían linealmente con los IV. (Mi uso de "modelo", "asume" y "hipotética," en lugar de "es" y "predecir", indica un punto de vista cognitivo y ontológica diferente, también.)
whuber

1
Buen punto whuber.
Michael R. Chernick

-2

Lo explicaría diciendo que a veces necesito cosas predichas. Por ejemplo, el precio de una casa da cierta información al respecto. Digamos, su tamaño, ubicación, la antigüedad de la construcción, etc. Quiero incluir eso en un modelo que tenga en cuenta la influencia de estos factores para predecir el precio.

Ahora tomando un sub-ejemplo, digamos, considero solo el tamaño de la casa. Eso implicaría que nada más afecta el precio. Podría ser un caso en el que estoy comparando casas que están en la misma localidad, fueron construidas alrededor del mismo tiempo, etc. O podría ser que no quiero complicarme las cosas y, por lo tanto, quiero que la vida real se ajuste a cómo Hasta donde puedo pensar. Continuando, hago un modelo donde tengo una lista de tamaños y precios correspondientes de propiedades similares (por ejemplo, de ventas que han estado ocurriendo recientemente ... pero eso tendría un sesgo grave de las casas que no están a la venta y, por lo tanto, afectan el precio de casas que son, pero ignoremos eso).

Ahora veo que una casa de 100 pies cuadrados cuesta $ 1 millón (superarse, este es un ejemplo simplificado). Entonces, naturalmente, esperaría que una casa de 200 pies cuadrados cueste el doble. Y eso es lo que llamaríamos un "patrón lineal". Por supuesto, cuando recopilamos los datos y el tamaño del gráfico frente al precio, vemos que no es exactamente el doble. Pero definitivamente hay una tendencia creciente.

Entonces trato de cuantificar la tendencia. ¿Cuánto aumento por cada pie cuadrado aumentado? Esa es la regresión lineal.

INSERTE el mapa terminológico y continúe con los conceptos estadísticos. Una forma de explicar el componente aleatorio y sistemático podría ser que cualquier cosa que olvidó modelar, o que no pudo medir, es aleatoria. Todo lo que puedas es sistemático. (Por ejemplo, digamos que es 2008 y quiere vender una casa).

Las suposiciones que subyacen a este modelo son que el diagrama de dispersión debe verse como una barra. Que es que tanto X como Y son "normales". y todos tienen una varianza similar.

Si ese no es el caso, ingrese GLM. y ahora explique la función de enlace n todo eso.

Está simplificado, pero debería funcionar como una introducción.

Puede poner en la historia de GLMs y modelos factoriales. Donde Fisher requería que las cosas comenzaran a variar juntas y este marco era adecuado para ese tipo de complejidad.

Espero que esto ayude...


1
Apreciamos sus esfuerzos, pero no hay necesidad de publicar su material hasta que haya terminado de escribirlo. En su forma actual, la forma en que se descompone en notas crípticas dispersas al final decepcionará a los lectores.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.