Si ,

9

Suponga la siguiente configuración:
Sea $Z_i = \min\{k_i, X_i\}, i=1,...,n$ . También $X_i \sim U[a_i, b_i], \; a_i, b_i >0$ . Además $k_i = ca_i + (1-c)b_i,\;\; 0<c<1$ es decir, $k_i$ es una combinación convexa de los límites de los respectivos soportes. $c$ es común para todos $i$ .

Yo creo que tengo la distribución de $Z_i$ derecha: se trata de una distribución mixta .
Tiene una parte continua,

X_{i} \in [a_{i}, k_{i}), Z_{i} = X_{i} \Rightarrow Pr (Z_{i} \leq z_{i}) = \frac{z_{i} - a_{i}}{b_{i} - a_{i}}

$X_i \in [a_i, k_i), Z_i=X_i \Rightarrow \Pr(Z_i \le z_i) = \frac {z_i-a_i}{b_i-a_i}$ y luego una discontinuidad y una parte discreta donde concentrados de masa de probabilidad:

Pr (Z_{i} = k_{i}) = Pr (X_{i} > k_{i}) = 1 - Pr (X_{i} \leq k_{i})

$\Pr(Z_i=k_i) = \Pr(X_i > k_i) = 1- \Pr(X_i \le k_i)$

= 1 - \frac{k_{i} - a_{i}}{b_{i} - a_{i}} = 1 - \frac{(1 - c) (b_{i} - a_{i})}{b_{i} - a_{i}} = c

$= 1- \frac {k_i - a_i}{b_i-a_i} = 1-\frac {(1-c)(b_i-a_i)}{b_i-a_i} =c$

Entonces, en todos

F_{Z_{i}} (z_{i}) = {\begin{cases} 0 z_{i} < a_{i} \\ \frac{z_{i} - a_{i}}{b_{i} - a_{i}} a_{i} \leq z_{i} < k_{i} \\ 1 k_{i} \leq z_{i} \end{cases}

$F_{Z_i}(z_i) = \begin{cases} 0\qquad z_i<a_i\\ \\ \frac {z_i-a_i}{b_i-a_i}\qquad a_i\le z_i<k_i \\ \\1\qquad k_i\le z_i\end{cases}$

mientras que para la función de masa / densidad "discreta / continua" mixta, es $0$ fuera del intervalo $[a_i, k_i]$ , tiene una parte continua que es la densidad de una uniforme $U(a_i, b_i)$ , $\frac {1}{b_i-a_i}$ pero para $a_i\le z_i<k_i$ , y concentra la masa de probabilidad positiva $c >0$ en $z_i = k_i$ .

En total, resume la unidad sobre los reales.

Me gustaría poder derivar, o decir algo sobre, la distribución y / o los momentos de la variable aleatoria $S_n \equiv \sum_{i=1}^n Z_i$ , como $n\rightarrow \infty$ .

Digamos que si las son independientes, se ve como como . ¿Puedo "ignorar" esa parte, incluso como una aproximación? Entonces me quedaría con una variable aleatoria que varía en el intervalo , que parece la suma de uniformes censurados, en camino de convertirse en "no censurados", y quizás algún teorema del límite central ... pero probablemente estoy divergiendo en lugar de converger aquí, entonces, alguna sugerencia? $X_i$ $\Pr(S_n = \sum_i^nk_i) = c^n \rightarrow 0$ $n\rightarrow \infty$ $[\sum_{i=1}^na_i,\; \sum_{i=1}^nk_i)$

PD: Esta pregunta es relevante, derivando la distribución de la suma de variables censuradas , pero la respuesta de @Glen_b no es lo que necesito. Tengo que trabajar esto analíticamente, incluso usando aproximaciones. Esto es investigación, así que trátelo como tarea: las sugerencias generales o las referencias a la literatura son lo suficientemente buenas.

— Alecos Papadopoulos
fuente

Si lo necesita, escriba la distribución de como , con una adecuada , en el que es un conjunto Borel.

Z_{i}

$Z_i$

μ_{Z_{i}} (B) = P (Z_{i} \in B) = \int_{B} g (t) d t + c I_{B} (k_{i})

$\mu_{Z_i}(B)=P(Z_i\in B)=\int_B g(t)\,dt +c\,I_B(k_i)$

g

$g$

B

$B$

— Zen

@Zen Ya escribí en la pregunta que la distribución es discontinua. También el RHS de hace obvio que esta representa una densidad en , pero una probabilidad de y prefiero la notación compacta.

f

$f$

f

$f$

[a_{i}, k_{i})

$[a_i,k_i)$

k_{i}

$k_i$

— Alecos Papadopoulos

Hasta donde yo sé, esta notación con sido un pdf y un pmf no existe; y tenemos el lenguaje matemático adecuado para describir distribuciones mixtas con precisión. Dudo que esta notación sea aceptada cuando publique su investigación. Sólo mi opinión, por supuesto. Siempre debes hacerlo como quieras.

f

$f$

— Zen

@Zen Publishing tiene un largo camino por recorrer y, de hecho, los revisores fruncen el ceño cuando ven una notación no establecida. Este es solo una abreviatura cuando se quiere describir una distribución por pasos en muchas líneas. No hay ningún "argumento a favor" en su contra y en contra de la notación establecida, como por ejemplo la que utilizó en un comentario anterior.

— Alecos Papadopoulos

5

Seguiría el consejo de Henry y comprobaría Lyapunov con . El hecho de que las distribuciones sean mixtas no debería ser un problema, siempre que las y comporten correctamente. La simulación del caso particular en el que , , para cada muestra que la normalidad está bien. $\delta=1$ $a_i$ $b_i$ $a_i=0$ $b_i=1$ $k_i=2/3$ $i\geq 1$

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

— zen
fuente

De hecho bastante normal. Bueno saber. Las condiciones habituales para CLT nunca fueron un problema aquí, mi pregunta era si había otros problemas, quizás sutiles, que retorcían el resultado asintótico y requerían un CLT modificado. Su simulación muestra que, de hecho, la discontinuidad discreta se vuelve insignificante en la probabilidad a medida que ingresan más variables en la suma.

— Alecos Papadopoulos

Nada específico, pero no plantean ningún problema. Piense en ellos como números finitos que se comportan bien, independientemente del índice . Se puede aumentar o disminuir como crece (hay una regla específica), y no uno cualquiera de ellos es desproporcionadamente mayor que los otros ... que representan diferencias en el tamaño de las entidades sin embargo "comparables". Entonces, la condición de Lindeberg ciertamente se mantiene

i

$i$

i

$i$

— Alecos Papadopoulos

Agradable. Buena suerte con los próximos pasos. Parece un problema interesante

— Zen

3

Consejos:

Suponiendo que es fijo y que es independiente, puede calcular la media y la varianza de cada : por ejemplo y sabes . $c$ $X_i$ $\mu_i$ $\sigma_i^2$ $Z_i$ $\mu_i=E[ Z_i] = c\frac{a_i+k_i}{2} + (1-c)k_i$ $k_i = ca_i + (1-c)b_i$

Luego, si y no crecen demasiado rápido, puede usar las condiciones de Lyapunov o Lindeberg para aplicar el teorema del límite central con la conclusión de que converge en la distribución a una normal estándar, o en un sentido de se distribuye aproximadamente normalmente con media y varianza . $a_i$ $b_i$ $\displaystyle\frac{1}{\sqrt{\sum_1^n \sigma_i^2}}\left(\sum_1^n Z_i - \sum_1^n \mu_i\right)$ $\sum_1^n Z_i$ $\sum_1^n \mu_i$ $\sum_1^n \sigma_i^2$

— Enrique
fuente

Gracias. No hay ningún problema con los y los , no crecen con el índice, simplemente fluctúan. Entonces, ¿está diciendo esencialmente que el CLT puede cubrir también variables aleatorias con distribuciones mixtas?

a_{i}

$a_i$

b_{i}

$b_i$

— Alecos Papadopoulos

Si, por ejemplo, y fueran fijos, tendría variables aleatorias independientes distribuidas idénticamente con una varianza finita, por lo que se aplicaría el teorema del límite central. Si esto es una distribución de mezcla o no, no afecta este resultado. Lo que digo es que puede extender esto a los casos en que las variables aleatorias son independientes pero no están distribuidas de manera idéntica, siempre que las medias y las variaciones sigan siendo razonables.

a_{i}

$a_i$

b_{i}

$b_i$

— Henry

2

Mi principal preocupación en esta pregunta era si uno podría aplicar el CLT "como de costumbre" en el caso que estoy examinando. El usuario @Henry afirmó que se puede, el usuario @Zen lo mostró a través de una simulación. Alentado así, ahora lo probaré analíticamente.

Lo que voy a hacer primero es verificar que esta variable con la distribución mixta tenga una función de generación de momentos "habitual". Denote el valor esperado de , su desviación estándar, y la versión centrada y escalada de por . Aplicando la fórmula de cambio de variable, encontramos que la parte continua es La función generadora de momento de debe ser $\mu_i$ $Z_i$ $\sigma_i$ $Z_i$ $\tilde Z_i = \frac {Z_i-\mu_i}{\sigma_i}$

f_{\tilde{Z}} ({\tilde{z}}_{i}) = σ_{i} f_{Z} (z_{i}) = \frac{σ_{i}}{b_{i} - a_{i}}

$f_{\tilde Z}(\tilde z_i) = \sigma_if_Z(z_i) = \frac {\sigma_i}{b_i-a_i}$

{\tilde{Z}}_{i}

$\tilde Z_i$

{\tilde{M}}_{i} (t) = E (e^{{\tilde{z}}_{i} t}) = \int_{- \infty}^{\infty} e^{{\tilde{z}}_{i} t} d F_{\tilde{Z}} ({\tilde{z}}_{i}) = \int_{{\tilde{a}}_{i}}^{{\tilde{k}}_{i}} \frac{σ_{i} e^{{\tilde{z}}_{i} t}}{b_{i} - a_{i}} d z_{i} + c e^{{\tilde{k}}_{i} t}

$\tilde M_i(t) = E(e^{\tilde z_it}) = \int_{-\infty}^{\infty}e^{\tilde z_it}dF_{\tilde Z}(\tilde z_i) = \int_{\tilde a_i}^{\tilde k_i}\frac{\sigma_ie^{\tilde z_it}}{b_i-a_i}dz_i + ce^{\tilde k_it}$

\Rightarrow {\tilde{M}}_{i} (t) = \frac{σ_{i}}{b_{i} - a_{i}} \frac{e^{{\tilde{k}}_{i} t} - e^{{\tilde{a}}_{i} t}}{t} + c e^{{\tilde{k}}_{i} t}

$\Rightarrow \tilde M_i(t)=\frac {\sigma_i}{b_i-a_i}\frac{e^{\tilde k_it}-e^{\tilde a_it}}{t} +ce^{\tilde k_it}$ con

{\tilde{k}}_{i} = \frac{k_{i} - μ_{i}}{σ_{i}}, {\tilde{a}}_{i} = \frac{a_{i} - μ_{i}}{σ_{i}}

$\tilde k_i = \frac {k_i-\mu_i}{\sigma_i},\;\; \tilde a_i = \frac {a_i-\mu_i}{\sigma_i}$

Usando primos para denotar derivados, si hemos especificado la función de generación de momento correctamente, entonces deberíamos obtener desde esto es una variable aleatoria centrada y escalada. Y, de hecho, al calcular derivados, aplicando la regla de L'Hopital muchas veces (dado que el valor del MGF en cero debe calcularse a través de límites), y haciendo manipulaciones algebraicas, he verificado las dos primeras igualdades. La tercera igualdad resultó demasiado agotadora, pero confío en que se mantenga.

{\tilde{M}}_{i} (0) = 1, {\tilde{M}}_{i}^{'} (0) = E (\tilde{Z}) = 0 \Rightarrow {\tilde{M}}_{i}^{″} (0) = E ({\tilde{Z}}_{i}^{2}) = Var ({\tilde{Z}}_{i}) = 1

$\tilde M_i(0) = 1, \;\; \tilde M_i'(0) = E(\tilde Z) = 0 \Rightarrow \tilde M_i''(0) = E(\tilde Z_i^2) = \operatorname {Var}(\tilde Z_i)=1$

Entonces tenemos un MGF adecuado. Si tomamos su expansión Taylor de segundo orden alrededor de cero, tenemos

\tilde{M} (t) = \tilde{M} (0) + {\tilde{M}}^{'} (0) t + \frac{1}{2} {\tilde{M}}^{″} (0) t^{2} + o (t^{2})

$\tilde M(t) = \tilde M(0) + \tilde M'(0)t +\frac 12\tilde M''(0)t^2 + o(t^2)$

\Rightarrow \tilde{M} (t) = 1 + \frac{1}{2} t^{2} + o (t^{2})

$\Rightarrow \tilde M(t) = 1 + \frac 12t^2+ o(t^2)$

Esto implica que la característica función es (aquí representa la unidad imaginaria) . $i$

\tilde{ϕ} (t) = 1 + \frac{1}{2} (i t)^{2} + o (t^{2}) = 1 - \frac{1}{2} t^{2} + o (t^{2})

$\tilde \phi(t) = 1 + \frac 12 (it)^2 + o(t^2)= 1 - \frac 12 t^2 + o(t^2)$

Por las propiedades de la función característica , tenemos que la función característica de es igual a $\tilde Z/\sqrt n$

{\tilde{ϕ}}_{\tilde{Z} / \sqrt{n}} (t) = {\tilde{ϕ}}_{\tilde{Z}} (t / \sqrt{n}) = 1 - \frac{t^{2}}{2 n} + o (t^{2} / n)

$\tilde \phi_{\tilde Z/\sqrt n}(t)=\tilde \phi_{\tilde Z}(t/\sqrt n) = 1 - \frac {t^2}{2n} + o(t^2/n)$

y dado que tenemos variables aleatorias independientes, la función característica de es $\frac 1{\sqrt n}\sum_i^n\tilde Z_i$

{\tilde{ϕ}}_{\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i}} (t) = \prod_{i = 1}^{n} {\tilde{ϕ}}_{\tilde{Z}} (t / \sqrt{n}) = \prod_{i = 1}^{n} (1 - \frac{t^{2}}{2 n} + o (t^{2} / n))

$\tilde \phi_{\frac 1{\sqrt n}\sum_i^n\tilde Z_i}(t)= \prod_{i=1}^n\tilde \phi_{\tilde Z}(t/\sqrt n)=\prod_{i=1}^n\left(1 - \frac {t^2}{2n} + o(t^2/n)\right)$

Entonces

lim_{n \to \infty} {\tilde{ϕ}}_{\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i}} (t) = lim_{n \to \infty} {(1 - \frac{t^{2}}{2 n})}^{n} = e^{- t^{2} / 2}

$\lim_{n\rightarrow \infty}\tilde \phi_{\frac 1{\sqrt n}\sum_i^n\tilde Z_i}(t) = \lim_{n\rightarrow \infty}\left(1 - \frac {t^2}{2n}\right)^n = e^{-t^2/2}$

por cómo se representa el número $e$ . Sucede que el último término es la función característica de la distribución normal estándar, y según el teorema de continuidad de Levy , tenemos que

\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i} \overset{d}{\to} N (0, 1)

$\frac 1{\sqrt n}\sum_i^n\tilde Z_i \xrightarrow{d} N(0,1)$

cual es el CLT. Tenga en cuenta que el hecho de que las variables no están distribuidas de forma idéntica, "desaparecieron" de la vista una vez que consideramos sus versiones centradas y escaladas y consideramos la expansión Taylor de segundo orden de su MGF / CHF: en ese nivel de aproximación, estas funciones son idénticos, y todas las diferencias se compactan en los términos restantes que desaparecen asintóticamente. $Z$

Sin embargo, el hecho de que el comportamiento idiosincrásico a nivel individual, de todos los elementos individuales, desaparezca cuando consideramos el comportamiento promedio, creo que se muestra muy bien usando una criatura desagradable como una variable aleatoria que tiene una distribución mixta.

— Alecos Papadopoulos
fuente

Realmente genial, Alecos. Mi opinión es que el argumento debería depender de condiciones más específicas en los y . Por ejemplo: ¿se rompe la prueba if rápidamente? (Sé que en su solicitud esto no sucede). ¿Qué piensa?

a_{i}

$a_i$

b_{i}

$b_i$

(b_{i} - a_{i}) ↓ 0

$(b_i-a_i)\downarrow 0$

— Zen

@Zen El problema con respecto a las variaciones de rv independientes pero no idénticamente distribuidos es muy sutil, no creo que todavía lo entienda claramente. Las condiciones conocidas de Lyapunov o Lindeberg solo son suficientes para que el CLT se mantenga. Hay casos en los que el CLT se cumple aunque estas condiciones no. Así que creo que si no limitamos las variaciones, entonces no hay una respuesta única, y el problema se vuelve totalmente específico para cada caso. Incluso el libro de Billingsley no es claro al respecto. La pregunta es cómo se verá el resto y qué podemos decir al respecto.

— Alecos Papadopoulos