Admito haber desconcertado esta pregunta durante bastante tiempo antes en mi carrera. Una forma en que me convencí de la respuesta fue adoptar una visión extremadamente práctica y aplicada de la situación, una visión que reconoce que ninguna medición es perfecta. Veamos a dónde podría llevar eso.
El objetivo de este ejercicio es exponer los supuestos que podrían ser necesarios para justificar la mezcla un tanto simplista de densidades y probabilidades en expresiones para verosimilitudes. Por lo tanto, destacaré tales supuestos donde sea que se presenten. Resulta que se necesitan bastantes, pero son bastante suaves y cubren todas las aplicaciones que he encontrado (lo que obviamente será limitado, pero aún incluye bastantes).
El problema se refiere a una distribución mixta.F,uno que no es absolutamente continuo ni singular. El teorema de descomposición de Lebesgue nos permite ver dicha distribución como una mezcla de una absolutamente continua (que por definición tiene una función de densidadFuna) y uno singular ("discreto"), que tiene una función de masa de probabilidad Fre. (Voy a ignorar la posibilidad de que un tercer componente continuo pero no absolutamente continuo pueda estar presente. Aquellos que usan tales modelos tienden a saber lo que están haciendo y generalmente tienen todas las habilidades técnicas para justificarlos).
Cuando F=Fθ es miembro de una familia paramétrica de distribuciones, podemos escribir
Fθ( x ) =Fa θ( x ) +Freθ( x ) =∫X∞Funa( t ; θ ) d t +∑t ≤ xFre( t ; θ ) .
(La suma es como máximo contable, por supuesto). Aquí, Funa(; θ ) es una función de densidad de probabilidad multiplicada por algún coeficiente de mezcla λ ( θ ) y Fre(; θ ) es una función de probabilidad de masa multiplicada por 1 - λ ( θ ) .
Interpretemos cualquier observación Xyo en un conjunto de datos iid X= (X1,X2, ... ,Xnorte) como "realmente" lo que significa que tenemos cierto conocimiento de que un verdadero valor subyacente hipotético yyo se encuentra en un intervalo (Xyo-δyo,Xyo+ϵyo] rodeando Xyo, pero por lo demás no tengo información sobre yyo. Suponiendo que conocemos todos los deltas y épsilones, esto ya no presenta ningún problema para construir una probabilidad porque todo se puede expresar en términos de probabilidades:
L (X; θ ) =∏yo(Fθ(Xyo+ϵyo) -Fθ(Xyo-δyo) ) .
Si el apoyo de Freθ no tiene puntos de condensación en ningún Xyo, su contribución a la probabilidad se reducirá como máximo a un solo término, siempre que los épsilones y los deltas sean lo suficientemente pequeños: no habrá contribución cuando Xyo No está en su apoyo.
Si asumimos Funa(; θ )es Lipschitz continuo en todos los valores de datos, luego uniformemente en los tamaños de los épsilons y deltas podemos aproximar la parte absolutamente continua deFθ(Xyo) como
Fa θ(Xyo+ϵyo) -Fa θ(Xyo-δyo) =Funa(Xyo; θ ) (ϵyo+δyo) + o ( |ϵyo+δyoEl | ).
La uniformidad de esta aproximación significa que a medida que tomamos todos los épsilones y deltas para crecer pequeños, todos loso ( )Los términos también se hacen pequeños. En consecuencia, hay un valor muy pequeño.ϵ ( θ ) > 0 , regido por las contribuciones de todos estos términos de error, para los cuales
L (X; θ )=∏yo(Funa(Xyo; θ ) (ϵyo+δyo) + o ( |ϵyo+δyoEl | )+Fre(Xyo; θ ) )=∏yo(Funa(Xyo; θ ) (ϵyo+δyo) +Fre(Xyo;θ)) + o(ϵ(θ)).
Esto sigue siendo un poco desordenado, pero muestra a dónde vamos. En el caso de los datos censurados, por lo general , solo una parte de cada término en el producto será distinto de cero, porque estos modelos generalmente suponen que el soporte de la parte singular de la distribución es disjunto del soporte de la parte continua, sin importar el parámetroθpuede ser. (Específicamente:fd(x)≠0 implica Fa(x+ϵ)−Fa( x - ϵ ) = o ( ϵ ) .) Eso nos permite dividir el producto en dos partes y podemos factorizar las contribuciones de todos los intervalos de la parte continua:
L (X; θ ) = (∏i = 1k(ϵyo+δyo) )∏i = 1kFuna(Xyo; θ ) ∏i = k + 1norteFre(Xyo; θ ) .
(Sin ninguna pérdida de generalidad, he indexado los datos para que Xyo, i = 1 , 2 , ... , k contribuir a la parte continua y de lo contrario Xyo, i = k + 1 , k + 2 , … , n contribuir a la parte singular de la probabilidad.)
Esta expresión ahora deja en claro que
Desde los anchos de intervalo ϵyo+δyo son fijos, no contribuyen a la probabilidad (que se define solo hasta un múltiplo constante positivo).
En consecuencia, podemos trabajar con la expresión
L (X; θ ) =∏i = 1kFuna(Xyo; θ ) ∏i = k + 1norteFre(Xyo; θ )
al construir razones de probabilidad o maximizar la probabilidad. La belleza de este resultado es que nunca necesitamos saber los tamaños de los intervalos finitos que se usan en esta derivación: los épsilons y los deltas desaparecen. Solo necesitamos saber que podemos hacerlos lo suficientemente pequeños para que la expresión de probabilidad con la que realmente trabajamos sea una aproximación adecuada a la expresión de probabilidad que usaríamos si supiéramos los tamaños de intervalo.