Bondad de ajuste y qué modelo elegir regresión lineal o Poisson

Necesito algunos consejos sobre dos dilemas principales en mi investigación, que es un estudio de caso de 3 grandes productos farmacéuticos e innovación. El número de patentes por año es la variable dependiente.

Mis preguntas son

¿Cuáles son los criterios más importantes para un buen modelo? ¿Qué es más / menos importante? ¿Es que la mayoría o todas las variables serán significativas? ¿Es el problema de "F ESTADÍSTICA"? ¿Es el valor de "R cuadrado ajustado"?
Segundo, ¿cómo puedo decidir el modelo más apropiado para la investigación? Además de las patentes que son una variable de recuento (por lo tanto, un recuento de Poisson), tengo variables explicativas como el rendimiento de los activos, el presupuesto de investigación y desarrollo, el socio repetido (% no es una variable binaria), el tamaño de la empresa (empleados) y un par más. ¿Debo hacer una regresión lineal o Poisson?

— Nitzan
fuente

Kjetil ha dado una buena respuesta detallada. Una opinión más rápida y breve, consistente con su argumento, es que lo que usted llama "segundo" es la pregunta realmente importante. Lo que mencionas primero es incidental.

— Nick Cox

Lo más importante es la lógica detrás del modelo. Su variable "número de patentes por año" es una variable de conteo, por lo que se indica la regresión de Poisson. Es un GLM (modelo lineal generalizado) con (generalmente) función de enlace de registro, mientras que la regresión lineal habitual es un GLM gaussiano con enlace de identidad. Aquí, es realmente la función de enlace de registro la más importante, más importante que la distribución de errores (Poisson o Gaussian).

La variable "Patentes" es una variable extensa : ver propiedades intensivas y extensivas . Para variables intensivas , como la temperatura, los modelos lineales (con enlace de identidad) suelen ser apropiados. Pero con una variable extensa es diferente. Piense que una de sus compañías farmacéuticas se divide en dos compañías diferentes. Luego, las patentes tuvieron que dividirse entre las dos nuevas empresas. ¿Qué sucede con las covariables, las en tu regresión? Las variables como el número de empleados y el presupuesto de RD también deberían dividirse. $x$

En términos generales, en este contexto, una variable intensiva es una variable que es independiente del tamaño de la compañía, mientras que una variable extensa depende (típicamente, linealmente) del tamaño de la compañía. Entonces, en cierto sentido, si tenemos muchas variables extensas diferentes en la ecuación de regresión, estamos midiendo los efectos de tamaño repetidamente . Eso parece redundante, por lo que deberíamos intentar, cuando sea posible, expresar variables en forma intensiva , como el presupuesto de RD por empleado (o como porcentaje del presupuesto total), también los ingresos, etc. Una variable como el número de empleados tendrá que dejarse como extenso. Vea la respuesta de @ onestop a Tratar con regresores correlacionados para otra discusión sobre este tema variable extenso / intensivo.

Veamos esto algebraicamente: son patentes, presupuesto (por empleado), empleados en la empresa original, mientras que y son las variables correspondientes después de una división. Suponga, como anteriormente, que es la única covariable extensa (con , por supuesto, también extensa). $P, B, E$ $P_1, B_1, E_1$ $P_2, B_2, E_2$ $E$ $P$

Luego, antes de la división, tenemos el modelo, el enlace de identidad, con la parte aleatoria : Deje que las fracciones divididas sean para la compañía 1 después de la división obtenemos desde pero . Del mismo modo para la empresa dos. Entonces, el modelo depende de una manera bastante complicada del tamaño de la empresa, solo del coeficiente de regresión en

PAG = μ + β_{1} mi + β_{2} si

$P= \mu+\beta_1 E + \beta_2 B$

α, 1 - α

$\alpha, 1-\alpha$

\begin{aligned} α PAG & = α μ + α β_{1} mi + α β_{2} si \\ {PAG}_{1} & = α μ + β_{1} {mi}_{1} + α β_{2} {si}_{1} \end{aligned}

$\begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align}$

P_{1} = α P, E_{1} = α E

$P_1=\alpha P, E_1=\alpha E$

B_{1} = B

$B_1=B$

E

$E$ ser independiente del tamaño de la empresa, el tamaño influye en todos los demás parámetros. Eso dificulta la interpretación de los resultados, especialmente si, en sus datos, tiene empresas de diferentes tamaños, ¿cómo va a interpretar esos coeficientes? La comparación con otros estudios basados en otros datos, etc., se vuelve extremadamente complicada.

Ahora, veamos si usar una función de enlace de registro puede ayudar. Nuevamente, escribimos modelos idealizados sin términos de perturbación. Las variables son como las anteriores.

Primero, el modelo antes de la división: Después de la división, para la compañía uno, obtenemos: Esto parece casi correcto, excepto por un problema, la parte de dependencia de no funciona del todo. Entonces, vemos que el número de empleados, uno covariable en forma extensa, debe usarse en una escala logarítmica. Luego, intentando de nuevo, obtenemos:

PAG = Exp (μ + β_{1} mi + β_{2} si)

$P = \exp\left(\mu+\beta_1 E + \beta_2 B\right)$

\begin{aligned} {PAG}_{1} & = Exp (Iniciar sesión α) Exp (μ + β_{1} mi + β_{2} si) \\ {PAG}_{1} & = Exp (Iniciar sesión α + μ + β_{1} mi + β_{2} {si}_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align}$

E

$E$

Modelo antes de la división: Después de la división: donde es una nueva intersección. Ahora, hemos puesto el modelo en una forma donde todos los parámetros (excepto la intercepción) tienen una interpretación independiente del tamaño de la compañía.

PAG = Exp (μ + β_{1} Iniciar sesión mi + β_{2} si)

$P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right)$

\begin{aligned} {PAG}_{1} & = Exp (Iniciar sesión α) Exp (μ + β_{1} Iniciar sesión mi + β_{2} si) \\ {PAG}_{1} & = Exp (Iniciar sesión α + μ + β_{1} Iniciar sesión mi + β_{2} {si}_{1}) \\ {PAG}_{1} & = Exp ((1 - β) Iniciar sesión α + μ + β_{1} Iniciar sesión {mi}_{1} + β_{2} {si}_{1}) \\ {PAG}_{1} & = Exp (μ^{'} + β_{1} Iniciar sesión {mi}_{1} + β_{2} {si}_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align}$

μ^{'}

$\mu'$

Eso hace que las interpretaciones de los resultados sean mucho más fáciles, y también las comparaciones con estudios que utilizan otros datos, tendencias con el tiempo, etc. No puede lograr este formulario con parámetros con interpretaciones independientes del tamaño con un enlace de identidad.

Conclusión: Utilice un GLM con función de enlace de registro, tal vez una regresión de Poisson, o binomio negativo, o ... ¡ La función de enlace es de órdenes de magnitud más importante!

En resumen, al construir un modelo de regresión para una variable de respuesta que es extensa , como una variable de conteo.

Intenta expresar covariables en forma intensiva.
Covariables que deben dejarse como extensivas: regístrelas (el álgebra anterior depende de que haya como máximo una covariable extensa).
Use una función de enlace de registro.

Luego, otros criterios, como los basados en el ajuste, pueden usarse para decisiones secundarias, como la distribución del término de perturbación.

— kjetil b halvorsen
fuente

¿Pensé que una regresión de Poisson era una regresión GLS con función de enlace de registro?

— Sideshow Bob

Por lo general, sí, pero también podría considerar una regresión de Poisson con un enlace de identidad (u otro, como la raíz cuadrada). Pero mi argumento aquí muestra que, por lo general, desea el enlace de registro.

— kjetil b halvorsen 18/12/2015

@ kjetil b halvorsen, ¿qué es en la corrección del término ?

(1 - β)

$(1-\beta)$

μ

$\mu$

— garej