Hay varios problemas aqui.
(1) El modelo debe ser explícitamente probabilístico . En casi todos los casos, no habrá un conjunto de parámetros para los cuales el lhs coincida con el rhs para todos sus datos: habrá residuales. Debe hacer suposiciones sobre esos residuos. ¿Esperas que sean cero en promedio? ¿Para ser distribuido simétricamente? ¿Estar aproximadamente distribuido normalmente?
Aquí hay dos modelos que están de acuerdo con el especificado pero que permiten un comportamiento residual drásticamente diferente (y, por lo tanto, generalmente darán lugar a estimaciones de parámetros diferentes). Puede variar estos modelos variando los supuestos sobre la distribución conjunta de :ϵyo
B: y i = β 0 exp ( β 1 x 1 i + … + β k x k i ) + ϵ i .
A: y yo= β0 0Exp( β1X1 i+ … + ΒkXk i+ ϵyo)
B: y yo= β0 0Exp( β1X1 i+ … + ΒkXk i) + ϵyo.
(Tenga en cuenta que estos son modelos para la información ; por lo general no hay tal cosa como un estimado valor de datos ).^ y yoyyoyyo^
(2) La necesidad de manejar valores cero para las y implica que el modelo (A) indicado es incorrecto e inadecuado , porque no puede producir un valor cero sin importar el error aleatorio. El segundo modelo anterior (B) permite valores cero (o incluso negativos) de y. Sin embargo, uno no debería elegir un modelo únicamente sobre esa base. Para reiterar # 1: es importante modelar los errores razonablemente bien.
(3) La linealización cambia el modelo . Por lo general, da como resultado modelos como (A) pero no como (B). Es utilizado por personas que han analizado sus datos lo suficiente como para saber que este cambio no afectará apreciablemente las estimaciones de los parámetros y por personas que ignoran lo que está sucediendo. (Es difícil, muchas veces, notar la diferencia).
(4) Una forma común de manejar la posibilidad de un valor cero es proponer que (o alguna reexpresión del mismo, como la raíz cuadrada) tiene una probabilidad estrictamente positiva de igual a cero. Matemáticamente, estamos mezclando una masa puntual (una "función delta") con alguna otra distribución. Estos modelos se ven así:y
F( yyo)θj∼ F( θ ) ;= βj 0+ βj 1X1 i+ ⋯ + βj kXk i
donde es uno de los parámetros implícitos en el vector , es una familia de distribuciones parametrizadas por , es la reexpresión de las 's (la función "enlace" de un modelo lineal generalizado: ver la respuesta de onestop). (Por supuesto, entonces, = cuando ) Ejemplos son los Modelos de Poisson y binomio negativo inflados a cero .θ F θ 1 , … , θ jPrFθ[ f( Y) = 0 ] = θj + 1> 0θFθ1, ... , θjFyPrFθ[ f( Y) ≤ t ]( 1 - θj + 1) Fθ( t )t ≠ 0
(5) Los problemas de construir un modelo y ajustarlo están relacionados pero son diferentes . Como un ejemplo simple, incluso un modelo de regresión ordinario puede ajustarse de muchas maneras por medio de mínimos cuadrados (que proporciona las mismas estimaciones de parámetros que Máxima verosimilitud y casi los mismos errores estándar), mínimos cuadrados repesados de forma iterativa , varias otras formas de " mínimos cuadrados robustos " , etc. La elección del ajuste a menudo se basa en la conveniencia, la conveniencia ( por ejemplo , disponibilidad de software), la familiaridad, el hábito o la convención, pero al menos se debe pensar dado a lo que es apropiado para la distribución supuesta de los términos de error , a lo queϵ iY= β0 0+ β1X+ ϵϵyola función de pérdida para el problema podría ser razonable, y ante la posibilidad de explotar información adicional (como una distribución previa de los parámetros).