En un contexto ligeramente más general con un vector -dimensional de -Observaciones (las respuestas, o variables dependientes), un matriz de -Observaciones (covariables o variables dependientes) y los parámetros tales como entonces la probabilidad de registro negativo es
En la pregunta del OP, es diagonal con
YnyXn×pxθ=(β1,β2,σ)Y∼N(Xβ1,Σ(β2,σ))Σ(β2,σ)Σ(β
l(β1,β2,σ)=12(Y−Xβ1)TΣ(β2,σ)−1(Y−Xβ1)+12log|Σ(β2,σ)|
Σ(β2,σ)Σ(β2,σ)ii=σ2g(zTiβ2)2
por lo que el determinante se convierte en y la probabilidad de registro negativa resultante se convierte en
Hay varias formas de abordar la minimización de esta función (suponiendo que los tres parámetros son independientes de la variación).
σ2n∏ni=1g(zTiβ2)212σ2∑i=1n(yi−xTiβ1)2g(zTiβ2)2+nlogσ+∑i=1nlogg(zTiβ2)
- Puede intentar minimizar la función mediante un algoritmo de optimización estándar que recuerde la restricción que .σ>0
- Puede calcular el perfil menos la probabilidad de registro de minimizando over para fijo , y luego conecte la función resultante a un algoritmo de optimización estándar sin restricciones.(β1,β2)σ(β1,β2)
- Puede alternar entre la optimización de cada uno de los tres parámetros por separado. La optimización sobre se puede hacer analíticamente, la optimización sobre es un problema de regresión de mínimos cuadrados ponderados, y la optimización sobre es equivalente a ajustar un modelo lineal generalizado gamma con el enlace inverso.β 1 β 2 g 2σβ1β2g2
La última sugerencia me atrae porque se basa en soluciones que ya conozco bien. Además, la primera iteración es algo que consideraría hacer de todos modos. Es decir, primero calcule una estimación inicial de por mínimos cuadrados ordinarios, ignorando la posible heterocedasticidad, y luego ajuste una gamma glm a los residuos cuadrados para obtener una estimación inicial de solo para verificar si el modelo más complicado parece valioso. Las iteraciones que incorporan la heterocedasticidad en la solución de mínimos cuadrados como pesos podrían mejorar la estimación.β 2 -β1β2 −
Con respecto a la segunda parte de la pregunta, probablemente consideraría calcular un intervalo de confianza para la combinación lineal utilizando asintóticos MLE estándar (comprobando con simulaciones que funcionan los asintóticos) o mediante bootstrapping.wT1β1+wT2β2
Editar: Por asintóticos MLE estándar me refiero a usar la aproximación normal multivariada a la distribución del MLE con la matriz de covarianza de la información inversa de Fisher. La información de Fisher es, por definición, la matriz de covarianza del gradiente de . Depende en general de los parámetros. Si puede encontrar una expresión analítica para esta cantidad, intente conectar el MLE. Como alternativa, puede estimar la información de Fisher por la información de Fisher observada , que es la arpillera de en el MLE. Su parámetro de interés es una combinación lineal de los parámetros en los dosl β ( y i , x i , z i )llβ-vectores, por lo tanto, a partir de la aproximación normal multivariada de la MLE puede encontrar una aproximación normal de la distribución de estimadores como se describe aquí . Esto le proporciona un error estándar aproximado y puede calcular intervalos de confianza. Está bien descrito en muchos libros de estadística (matemática), pero una presentación razonablemente accesible que puedo recomendar es In All Likelihood de Yudi Pawitan. De todos modos, la derivación formal de la teoría asintótica es bastante complicada y se basa en una serie de condiciones de regularidad, y solo proporciona una asintótica válida.distribuciones Por lo tanto, en caso de duda, siempre haría algunas simulaciones con un nuevo modelo para verificar si puedo confiar en los resultados para parámetros realistas y tamaños de muestra. El arranque simple, no paramétrico, en el que se muestras de los triples del conjunto de datos observado con reemplazo, puede ser una alternativa útil si el procedimiento de ajuste no consume demasiado tiempo.(yi,xi,zi)