No está claro cuánta intuición podría tener un lector de esta pregunta sobre la convergencia de algo, y mucho menos de variables aleatorias, por lo que escribiré como si la respuesta fuera "muy pequeña". Algo que podría ayudar: en lugar de pensar "cómo puede converger una variable aleatoria", pregunte cómo puede converger una secuencia de variables aleatorias. En otras palabras, no es solo una variable única, sino una lista (¡infinitamente larga!) De variables, y las que están más adelante en la lista se están acercando cada vez más a ... algo. Quizás un solo número, quizás una distribución completa. Para desarrollar una intuición, necesitamos descubrir qué significa "cada vez más cerca". La razón por la que hay tantos modos de convergencia para variables aleatorias es porque hay varios tipos de "
Primero recapitulemos la convergencia de secuencias de números reales. En podemos usar la distancia euclidiana | x - y | para medir qué tan cerca está x de y . Considere x n = n + 1R El | x-yEl |Xy . Entonces la secuenciax1,Xnorte= n + 1norte= 1 + 1norte comienza 2 , 3X1,X2,X3, ...y afirmo quexnconverge a1. Claramente,xnse estáacercandoa1, pero también es cierto quexnse está acercando a0.9. Por ejemplo, a partir del tercer término en adelante, los términos en la secuencia son una distancia de0.5o menos de0.9. Lo que importa es que se están acercandoarbitrariamentea1, pero no a0.9. Ningún término en la secuencia nunca llega a0.05de0.92 , 32, 43, 54 4, 65 5, ...Xnorte1Xnorte1Xnorte0.90,50.910.90,050.9, mucho menos permanecer tan cerca para los términos posteriores. En contraste, lo es 0.05 de 1 , y todos los términos posteriores están dentro de 0.05 de 1 , como se muestra a continuación.X20=1.050.0510.051
Podría ser más estricto y exigir que los términos se mantengan dentro de de 1 , y en este ejemplo encuentro que esto es cierto para los términos N = 1000 y en adelante. Además, podría elegir cualquier umbral fijo de cercanía ϵ , sin importar cuán estricto (a excepción de ϵ = 0 , es decir, el término sea realmente 1 ) y, finalmente, la condición | x n - x | < ϵ se satisfará para todos los términos más allá de cierto término (simbólicamente: para n > N , donde el valor de N0.0011N=1000ϵϵ=01|xn−x|<ϵn>NNdepende de cuán estricto y elegí). Para ejemplos más sofisticados, tenga en cuenta que no estoy necesariamente interesado en la primera vez que se cumple la condición: el siguiente término podría no obedecer la condición, y eso está bien, siempre que pueda encontrar un término más adelante en la secuencia para la cual la condición se cumple y se cumple para todos los términos posteriores. Ilustramos esto para x n = 1 + sin ( n )ϵ , que también converge a1, conϵ=0.05sombreado nuevamente.Xnorte= 1 + pecado( n )norte1ϵ = 0.05
Ahora considere y la secuencia de variables aleatorias X n = ( 1 + 1X∼ U( 0 , 1 ). Esta es una secuencia de RV conX1=2X,X2=3Xnorte= ( 1 + 1norte) XX1= 2 X,X3=4X2= 32Xy así sucesivamente. ¿En qué sentido podemos decir que esto se está acercando a lapropiaX?X3= 43XX
Dado que y X son distribuciones, no solo números individuales, la condición | X n - X | < Ε es ahora un evento : incluso para un fijo n y varepsilon este puede o no producirse . Tener en cuenta la probabilidad de que se cumpla da lugar a la convergencia en la probabilidad . Para X n p → X queremos la probabilidad complementaria P ( | X n - X | ≥ ϵ )XnorteXEl | Xnorte- XEl | <ϵnorteϵXnorte→pagsXPAGS( | Xnorte- XEl | ≥ϵ)- intuitivamente, la probabilidad de que sea algo diferente (al menos ϵ ) a X - para volverse arbitrariamente pequeña, para n suficientemente grande . Para un ϵ fijo, esto da lugar a una secuencia completa de probabilidades , P ( | X 1 - X | ≥ ϵ ) , P ( | X 2 - X | ≥ ϵ ) , P ( | X 3 - X | ≥XnorteϵXnorteϵPAGS( | X1- XEl | ≥ϵ)PAGS( | X2- XEl | ≥ϵ) , ... y si esta secuencia de probabilidades converge a cero (como sucede en nuestro ejemplo), entonces decimos X n converge en probabilidad a X . Nota que los límites de probabilidad son a menudo constantes: por ejemplo, en regresiones en econometría, vemos Plim ( β ) = β a medida que aumenta el tamaño de muestra n . Pero aquí plim ( X n ) = X ∼ U ( 0 , 1 ) . Efectivamente, la convergencia en la probabilidad significa que es poco probable que XPAGS( | X3- XEl | ≥ϵ)...XnorteXplim ( β^) = βnorteplim ( Xnorte) = X∼ U( 0 , 1 ) y X diferirán mucho en una realización particular, y puedo hacer que la probabilidad de que X n y X estén más allá de ϵ separadas tan pequeñas como me guste, siempre que elija un n suficientemente grande.XnorteXXnorteXϵnorte
Un sentido diferente en el que se acerca a X es que sus distribuciones se parecen cada vez más. Puedo medir esto comparando sus CDF. En particular, elija alguna x en la que F X ( x ) = P ( X ≤ x ) sea continua (en nuestro ejemplo X ∼ U ( 0 , 1 ) para que su CDF sea continua en todas partes y cualquier x servirá) y evalúe los CDF de la secuencia de X n s allí. Esto produce otra secuencia de probabilidades,XnorteXXFX( x ) = P( X≤ x )X∼ U( 0 , 1 )XXnorte , P ( X 2 ≤ x ) , P ( X 3 ≤ x ) , ... y esta secuencia converge a P ( X ≤ x ) . Las CDF evaluadas en x para cada una de las X n se vuelven arbitrariamente cercanas a la CDF de X evaluadas en x . Si este resultado se cumple independientemente de la x que elegimos, entonces X n converge aPAGS( X1≤ x )PAGS( X2≤ x )PAGS( X3≤ x )...PAGS( X≤ x )XXnorteXXXXnorte en distribución. Resulta que esto sucede aquí, y que no debería sorprenderse ya que la convergencia en probabilidad a X implica la convergencia en distribución a X . Tenga en cuenta queno puede darse el caso de que X n converja en probabilidad a una distribución particular no degenerada, sino que converja en distribución a una constante. (¿Cuál fue posiblemente el punto de confusión en la pregunta original? Pero tenga en cuenta una aclaración más adelante).X XXXnorte
Para un ejemplo diferente, deje que . Ahora tenemos una secuencia de RV,Y1∼U(1,2),Y2∼U(1,3Ynorte∼ U( 1 , n + 1norte)Y1∼ U( 1 , 2 ),Y3∼U(1,4Y2∼ U( 1 , 32),...y está claro que la distribución de probabilidad se está degenerando a un pico eny=1. Ahora considere la distribución degeneradaY=1, con lo cual me refiero aP(Y=1)=1. Es fácil ver que para cualquierϵ>0, la secuenciaP(|Yn-Y|≥ϵ)converge a cero para queYnconverja aYY3∼ U( 1 , 43)...y= 1Y= 1PAGS( Y= 1 ) = 1ϵ > 0PAGS( | Ynorte- YEl | ≥ϵ)YnorteYen probabilidad Como consecuencia, también debe converger a Y en la distribución, lo que podemos confirmar considerando los CDF. Dado que el CDF F Y ( y ) de Y es discontinuo en y = 1, no necesitamos considerar los CDF evaluados en ese valor, pero para los CDF evaluados en cualquier otro y podemos ver que la secuencia P ( Y 1 ≤ y ) , P ( Y 2 ≤ y ) , P ( Y 3 ≤YnorteYFY( y)Yy= 1yPAGS( Y1≤ y)PAGS( Y2≤ y) , ... converge a P ( Y ≤ y ) que es cero para y < 1 y uno para y > 1 . Esta vez, debido a que la secuencia de RV convergió en probabilidad a una constante, también convergió en distribución a una constante.PAGS( Y3≤ y)...PAGS( Y≤ y)y< 1y> 1
Algunas aclaraciones finales:
- Aunque la convergencia en la probabilidad implica convergencia en la distribución, lo contrario es falso en general. El hecho de que dos variables tengan la misma distribución no significa que tengan que estar cerca la una de la otra. Para un ejemplo trivial, tomar y Y = 1 - X . Entonces, X e Y tienen exactamente la misma distribución (un 50% de posibilidades de ser cero o uno) y la secuencia X n = X, es decir, la secuencia que va X , X , X , X , ...X∼ Bernouilli ( 0,5 )Y= 1 - XXYXnorte= XX, X, X, X, ...trivialmente converge en distribución a (el CDF en cualquier posición de la secuencia es el mismo que el CDF de Y ). Pero Y y X siempre están separados, por lo que P ( | X n - Y | ≥ 0.5 ) = 1, entonces no tiende a cero, por lo que X n no converge a Y en probabilidad. Sin embargo, si hay convergencia en la distribución a una constante , entonces eso implica convergencia en la probabilidad a esa constante (intuitivamente, más adelante en la secuencia será poco probable que esté lejos de esa constante).YYYXPAGS( | Xnorte- YEl | ≥0.5)=1XnorteY
- Como dejan en claro mis ejemplos, la convergencia en la probabilidad puede ser constante pero no necesariamente; La convergencia en la distribución también podría ser constante. No es posible converger en probabilidad a una constante pero converger en distribución a una distribución particular no degenerada, o viceversa.
- ¿Es posible que hayas visto un ejemplo en el que, por ejemplo, te dijeron que una secuencia converge a otra secuencia Y n ? Puede que no te hayas dado cuenta de que era una secuencia, pero el regalo sería una distribución que también dependía de n . Puede ser que ambas secuencias converjan a una constante (es decir, distribución degenerada). Su pregunta sugiere que se está preguntando cómo una secuencia particular de RV podría converger tanto a una constante como a una distribución; Me pregunto si este es el escenario que estás describiendo.Xnorte Ynortenorte
- Mi explicación actual no es muy "intuitiva": tenía la intención de hacer que la intuición fuera gráfica, pero aún no he tenido tiempo de agregar los gráficos para los RV.