Si se debe usar una compensación en una regresión de Poisson al predecir los objetivos profesionales totales anotados por los jugadores de hockey


10

Tengo una pregunta sobre si usar o no un desplazamiento. Suponga un modelo muy fácil, donde desea describir el número (general) de goles en el hockey. Entonces tienes goles, número de juegos jugados y un "delantero" ficticio variable que es igual a 1 si el jugador es delantero y 0 en caso contrario. Entonces, ¿cuál de los siguientes modelos está correctamente especificado?

  1. objetivos = juegos + delantero, o

  2. goles = offset (juegos) + delantero

Nuevamente, los objetivos son objetivos generales y la cantidad de juegos son juegos generales para un solo jugador. Por ejemplo, podría haber un jugador elegido que tenga 50 goles en 100 juegos y otro jugador que tenga 20 goles en 50 juegos, etc.

¿Qué se supone que debo hacer cuando me gustaría estimar el número de goles? ¿Es realmente necesario usar un desplazamiento aquí?

Referencias


¿Cuál es tu variable dependiente? ¿Es el número total de goles en una carrera hasta la fecha para un jugador específico? Además, ¿hay alguna razón por la que no quieres predecir los objetivos promedio por juego?
Jeromy Anglim

Sí, es el número total de goles! No, no tengo los datos para cada juego. Solo tengo los datos generales.
MarkDollar 05 de

La variable dependiente es (número de) objetivos. (Ver ecuaciones anteriores)
MarkDollar

He modificado un poco el título para que no sea un duplicado de la pregunta anterior. Siéntase libre de modificar si he interpretado mal.
Jeromy Anglim

Respuestas:


16

Un modelo de compensación está modelando objetivos por juego, como se puede ver aquí:

log(goals/games) = a+bx

es equivalente a

log(goals) -log(games) = a+bx

es equivalente a

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Vea la diapositiva 35 aquí: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Si cree que a + bx está relacionado con la relación logarítmica de goles a juegos (la tasa), utilice un desplazamiento. Si crees que hay un efecto de juego más complicado, quizás por acumular experiencia, no lo hagas. Para más discusión, vea esto: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811


1

Algunos puntos simples que no abordan directamente su pregunta sobre las compensaciones:

  • Vería si el número de juegos está correlacionado con los goles medios anotados. En muchos deportes de goles de élite en los que puedo pensar (por ejemplo, fútbol, ​​reglas australianas de fútbol, ​​etc.) predeciría que la longevidad de una carrera está relacionada con el éxito de una carrera. Y al menos para los jugadores en roles de gol, el éxito está relacionado con el número de goles marcados. Si esto es cierto, entonces el número de juegos capturaría dos efectos. Uno se relacionaría con el simple hecho de que más juegos jugados significan más oportunidades para marcar goles; y el otro capturaría los efectos relacionados con las habilidades. Puede examinar la relación entre el número de juegos y los goles medios anotados (por ejemplo, goles / número de juegos) para explorar esto. Creo que esto tiene implicaciones importantes para cualquier modelado que realice.
  • Mis instintos son convertir la variable dependiente en objetivos medios por juego. Me doy cuenta de que tendrías una medición más precisa de la habilidad de un jugador para aquellos que jugaron más juegos, así que tal vez eso sea un problema. Dependiendo de la precisión en su modelo que desee, y la distribución resultante de los medios del jugador, es posible que pueda confiar en las técnicas de modelado lineal estándar. Pero tal vez esto sea demasiado aplicado para sus propósitos, y tal vez tenga razones para querer modelar los goles totales anotados.

Hola jeromy Lo que descirbe es absolutamente correcto. Pero no hay forma de crear un modelo que mida goles / juegos. Por lo tanto, me veo obligado al modelo anterior (objetivos como dependiente y juegos como variable independiente). Sé que los juegos están correlacionados con cosas como la habilidad y que tengo que explorar este problema (problema de variables omitidas y endogenidad). Pero en este momento me pregunto cuál de los dos modelos anteriores debería usarse.
MarkDollar
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.