Lo más importante es la lógica detrás del modelo. Su variable "número de patentes por año" es una variable de conteo, por lo que se indica la regresión de Poisson. Es un GLM (modelo lineal generalizado) con (generalmente) función de enlace de registro, mientras que la regresión lineal habitual es un GLM gaussiano con enlace de identidad. Aquí, es realmente la función de enlace de registro la más importante, más importante que la distribución de errores (Poisson o Gaussian).
La variable "Patentes" es una variable extensa : ver propiedades intensivas y extensivas . Para variables intensivas , como la temperatura, los modelos lineales (con enlace de identidad) suelen ser apropiados. Pero con una variable extensa es diferente. Piense que una de sus compañías farmacéuticas se divide en dos compañías diferentes. Luego, las patentes tuvieron que dividirse entre las dos nuevas empresas. ¿Qué sucede con las covariables, las en tu regresión? Las variables como el número de empleados y el presupuesto de RD también deberían dividirse.X
En términos generales, en este contexto, una variable intensiva es una variable que es independiente del tamaño de la compañía, mientras que una variable extensa depende (típicamente, linealmente) del tamaño de la compañía. Entonces, en cierto sentido, si tenemos muchas variables extensas diferentes en la ecuación de regresión, estamos midiendo los efectos de tamaño repetidamente . Eso parece redundante, por lo que deberíamos intentar, cuando sea posible, expresar variables en forma intensiva , como el presupuesto de RD por empleado (o como porcentaje del presupuesto total), también los ingresos, etc. Una variable como el número de empleados tendrá que dejarse como extenso. Vea la respuesta de @ onestop a Tratar con regresores correlacionados para otra discusión sobre este tema variable extenso / intensivo.
Veamos esto algebraicamente:
son patentes, presupuesto (por empleado), empleados en la empresa original, mientras que
y son las variables correspondientes después de una división. Suponga, como anteriormente, que es la única covariable extensa (con , por supuesto, también extensa).P 1 , B 1 , E 1 P 2 , B 2 , E 2 E PPAG, B , EPAG1, B1, E1PAG2, B2, E2miPAG
Luego, antes de la división, tenemos el modelo, el enlace de identidad, con la parte aleatoria :
Deje que las fracciones divididas sean para la compañía 1 después de la división obtenemos
desde pero . Del mismo modo para la empresa dos. Entonces, el modelo depende de una manera bastante complicada del tamaño de la empresa, solo del coeficiente de regresión enα , 1 - α α P
PAG= μ + β1mi+ β2si
α , 1 - α P1=αP,E1=αEB1=BEα PPAG1= α μ + α β1mi+ α β2si= α μ + β1mi1+ α β2si1
PAG1= α P, E1= α Esi1= Bmiser independiente del tamaño de la empresa, el tamaño influye en todos los demás parámetros. Eso dificulta la interpretación de los resultados, especialmente si, en sus datos, tiene empresas de diferentes tamaños, ¿cómo va a interpretar esos coeficientes? La comparación con otros estudios basados en otros datos, etc., se vuelve extremadamente complicada.
Ahora, veamos si usar una función de enlace de registro puede ayudar. Nuevamente, escribimos modelos idealizados sin términos de perturbación. Las variables son como las anteriores.
Primero, el modelo antes de la división:
Después de la división, para la compañía uno, obtenemos:
Esto parece casi correcto, excepto por un problema, la parte de dependencia de no funciona del todo. Entonces, vemos que el número de empleados, uno covariable en forma extensa, debe usarse en una escala logarítmica. Luego, intentando de nuevo, obtenemos:P 1
PAG= exp( μ + β1mi+ β2B )
PAG1PAG1= exp( registroα ) exp( μ + β1mi+ β2B )= exp( registroα + μ + β1mi+ β2si1)
mi
Modelo antes de la división:
Después de la división:
donde es una nueva intersección. Ahora, hemos puesto el modelo en una forma donde todos los parámetros (excepto la intercepción) tienen una interpretación independiente del tamaño de la compañía.
PAG= exp( μ + β1Iniciar sesiónmi+ β2B )
PAG1PAG1PAG1PAG1= exp( registroα ) exp(μ + β1Iniciar sesiónmi+ β2B )= exp( registroα +μ + β1Iniciar sesiónmi+ β2si1)= exp( ( 1 - β) registroα + μ + β1Iniciar sesiónmi1+ β2si1)= exp(μ′+ β1Iniciar sesiónmi1+ β2si1)
μ′
Eso hace que las interpretaciones de los resultados sean mucho más fáciles, y también las comparaciones con estudios que utilizan otros datos, tendencias con el tiempo, etc. No puede lograr este formulario con parámetros con interpretaciones independientes del tamaño con un enlace de identidad.
Conclusión: Utilice un GLM con función de enlace de registro, tal vez una regresión de Poisson, o binomio negativo, o ... ¡ La función de enlace es de órdenes de magnitud más importante!
En resumen, al construir un modelo de regresión para una variable de respuesta que es extensa , como una variable de conteo.
Intenta expresar covariables en forma intensiva.
Covariables que deben dejarse como extensivas: regístrelas (el álgebra anterior depende de que haya como máximo una covariable extensa).
Use una función de enlace de registro.
Luego, otros criterios, como los basados en el ajuste, pueden usarse para decisiones secundarias, como la distribución del término de perturbación.