Explicación intuitiva de convergencia en distribución y convergencia en probabilidad


26

¿Cuál es la diferencia intuitiva entre una variable aleatoria que converge en probabilidad versus una variable aleatoria que converge en distribución?

He leído numerosas definiciones y ecuaciones matemáticas, pero eso realmente no ayuda. (Tenga en cuenta que soy un estudiante universitario que estudia econometría).

¿Cómo puede una variable aleatoria converger en un solo número, pero también converger en una distribución?


1
"¿Cómo puede una variable aleatoria converger en un solo número pero también converger en una distribución?" - Creo que se beneficiaría al aclarar si su confusión es que los RV en general pueden converger a números individuales o a una distribución completa (menos misterio una vez que se da cuenta de que el "número único" es esencialmente un tipo especial de distribución) ¿O si su confusión es cómo una sola RV podría converger a una constante de acuerdo con un modo de convergencia, pero a una distribución de acuerdo con otro modo de convergencia?
Silverfish

1
Al igual que @CloseToC Me pregunto si ha llegado a través de regresiones donde, por un lado le han dicho β es "asintóticamente normal", pero por otro lado se les ha dicho que converge a la verdadera β . β^β
Silverfish

@Silverfish, no lo he hecho en realidad!
nicefella

Respuestas:


25

¿Cómo puede un número aleatorio converger en una constante?

Digamos que tienes bolas en la caja. Puedes elegirlos uno por uno. Después de elegir k bolas, te pregunto: ¿cuál es el peso medio de las bolas en la caja? Tu mejor respuesta sería ˉ x k = 1Nk. ¿Te das cuenta de que ˉ x kes el valor aleatorio? Depende de quékbolas hayas elegido primero.x¯k=1ki=1kxix¯kk

Ahora, si sigues tirando de las bolas, en algún momento no quedarán bolas en la caja y obtendrás .x¯Nμ

Entonces, lo que tenemos es la secuencia aleatoria que converge a la constante ˉ x N = μ . Entonces, la clave para entender su problema con la convergencia en la probabilidad es darse cuenta de que estamos hablando de una secuencia de variables aleatorias, construidas de cierta manera .

x¯1,,x¯k,,x¯N,x¯N,x¯N,
x¯N=μ

A continuación, obtengamos números aleatorios uniformes , donde e i[ 0 , 1 ] . Veamos la secuencia aleatoria ξ 1 , ξ 2 , ... , donde ξ k = 1e1,e2,ei[0,1]ξ1,ξ2,. Elξkes un valor aleatorio, porque todos sus términos son valores aleatorios. No podemos predecir quéva a serξk. Sin embargo, resulta que podemos afirmar que las distribuciones de probabilidad deξkse parecerán cada vez más alNnormal estándar(0,1). Así es como convergen las distribuciones.ξk=1k12i=1k(ei12)ξkξkξkN(0,1)


1
¿Cuál es la secuencia de variables aleatorias en su primer ejemplo después de llegar a N? ¿Cómo se evalúa el límite?
ekvall

Es solo una intuición. Imagine el cuadro infinito, entonces, su estimador converge a la media de la población μ . x¯μ
Aksakal

21

No está claro cuánta intuición podría tener un lector de esta pregunta sobre la convergencia de algo, y mucho menos de variables aleatorias, por lo que escribiré como si la respuesta fuera "muy pequeña". Algo que podría ayudar: en lugar de pensar "cómo puede converger una variable aleatoria", pregunte cómo puede converger una secuencia de variables aleatorias. En otras palabras, no es solo una variable única, sino una lista (¡infinitamente larga!) De variables, y las que están más adelante en la lista se están acercando cada vez más a ... algo. Quizás un solo número, quizás una distribución completa. Para desarrollar una intuición, necesitamos descubrir qué significa "cada vez más cerca". La razón por la que hay tantos modos de convergencia para variables aleatorias es porque hay varios tipos de "

Primero recapitulemos la convergencia de secuencias de números reales. En podemos usar la distancia euclidiana | x - y | para medir qué tan cerca está x de y . Considere x n = n + 1R |xy|xy . Entonces la secuenciax1,xn=n+1n=1+1n comienza 2 , 3x1,x2,x3,y afirmo quexnconverge a1. Claramente,xnse estáacercandoa1, pero también es cierto quexnse está acercando a0.9. Por ejemplo, a partir del tercer término en adelante, los términos en la secuencia son una distancia de0.5o menos de0.9. Lo que importa es que se están acercandoarbitrariamentea1, pero no a0.9. Ningún término en la secuencia nunca llega a0.05de0.92,32,43,54,65,xn1xn1xn0.90.50.910.90.050.9, mucho menos permanecer tan cerca para los términos posteriores. En contraste, lo es 0.05 de 1 , y todos los términos posteriores están dentro de 0.05 de 1 , como se muestra a continuación.x20=1.050.0510.051

Convergencia de (n + 1) / na 1

Podría ser más estricto y exigir que los términos se mantengan dentro de de 1 , y en este ejemplo encuentro que esto es cierto para los términos N = 1000 y en adelante. Además, podría elegir cualquier umbral fijo de cercanía ϵ , sin importar cuán estricto (a excepción de ϵ = 0 , es decir, el término sea realmente 1 ) y, finalmente, la condición | x n - x | < ϵ se satisfará para todos los términos más allá de cierto término (simbólicamente: para n > N , donde el valor de N0.0011N=1000ϵϵ=01|xnx|<ϵn>NNdepende de cuán estricto y elegí). Para ejemplos más sofisticados, tenga en cuenta que no estoy necesariamente interesado en la primera vez que se cumple la condición: el siguiente término podría no obedecer la condición, y eso está bien, siempre que pueda encontrar un término más adelante en la secuencia para la cual la condición se cumple y se cumple para todos los términos posteriores. Ilustramos esto para x n = 1 + sin ( n )ϵ , que también converge a1, conϵ=0.05sombreado nuevamente.xn=1+sin(n)n1ϵ=0.05

Convergencia de 1 + sin (n) / na 1

Ahora considere y la secuencia de variables aleatorias X n = ( 1 + 1XU(0,1). Esta es una secuencia de RV conX1=2X,X2=3Xn=(1+1n)XX1=2X,X3=4X2=32Xy así sucesivamente. ¿En qué sentido podemos decir que esto se está acercando a lapropiaX?X3=43XX

Dado que y X son distribuciones, no solo números individuales, la condición | X n - X | < Ε es ahora un evento : incluso para un fijo n y varepsilon este puede o no producirse . Tener en cuenta la probabilidad de que se cumpla da lugar a la convergencia en la probabilidad . Para X n p X queremos la probabilidad complementaria P ( | X n - X |ϵ )XnX|XnX|<ϵnϵXnpXP(|XnX|ϵ)- intuitivamente, la probabilidad de que sea ​​algo diferente (al menos ϵ ) a X - para volverse arbitrariamente pequeña, para n suficientemente grande . Para un ϵ fijo, esto da lugar a una secuencia completa de probabilidades , P ( | X 1 - X |ϵ ) , P ( | X 2 - X |ϵ ) , P ( | X 3 - X |XnϵXnϵP(|X1X|ϵ)P(|X2X|ϵ) , ... y si esta secuencia de probabilidades converge a cero (como sucede en nuestro ejemplo), entonces decimos X n converge en probabilidad a X . Nota que los límites de probabilidad son a menudo constantes: por ejemplo, en regresiones en econometría, vemos Plim ( β ) = β a medida que aumenta el tamaño de muestra n . Pero aquí plim ( X n ) = X U ( 0 , 1 ) . Efectivamente, la convergencia en la probabilidad significa que es poco probable que XP(|X3X|ϵ)XnXplim(β^)=βnplim(Xn)=XU(0,1) y X diferirán mucho en una realización particular, y puedo hacer que la probabilidad de que X n y X estén más allá de ϵ separadas tan pequeñas como me guste, siempre que elija un n suficientemente grande.XnXXnXϵn

Un sentido diferente en el que se acerca a X es que sus distribuciones se parecen cada vez más. Puedo medir esto comparando sus CDF. En particular, elija alguna x en la que F X ( x ) = P ( X x ) sea ​​continua (en nuestro ejemplo X U ( 0 , 1 ) para que su CDF sea continua en todas partes y cualquier x servirá) y evalúe los CDF de la secuencia de X n s allí. Esto produce otra secuencia de probabilidades,XnXxFX(x)=P(Xx)XU(0,1)xXn , P ( X 2x ) , P ( X 3x ) , ... y esta secuencia converge a P ( X x ) . Las CDF evaluadas en x para cada una de las X n se vuelven arbitrariamente cercanas a la CDF de X evaluadas en x . Si este resultado se cumple independientemente de la x que elegimos, entonces X n converge aP(X1x)P(X2x)P(X3x)P(Xx)xXnXxxXn en distribución. Resulta que esto sucede aquí, y que no debería sorprenderse ya que la convergencia en probabilidad a X implica la convergencia en distribución a X . Tenga en cuenta queno puede darse el caso de que X n converja en probabilidad a una distribución particular no degenerada, sino que converja en distribución a una constante. (¿Cuál fue posiblemente el punto de confusión en la pregunta original? Pero tenga en cuenta una aclaración más adelante).X XXXn

Para un ejemplo diferente, deje que . Ahora tenemos una secuencia de RV,Y1U(1,2),Y2U(1,3YnU(1,n+1n)Y1U(1,2),Y3U(1,4Y2U(1,32),...y está claro que la distribución de probabilidad se está degenerando a un pico eny=1. Ahora considere la distribución degeneradaY=1, con lo cual me refiero aP(Y=1)=1. Es fácil ver que para cualquierϵ>0, la secuenciaP(|Yn-Y|ϵ)converge a cero para queYnconverja aYY3U(1,43)y=1Y=1P(Y=1)=1ϵ>0P(|YnY|ϵ)YnYen probabilidad Como consecuencia, también debe converger a Y en la distribución, lo que podemos confirmar considerando los CDF. Dado que el CDF F Y ( y ) de Y es discontinuo en y = 1, no necesitamos considerar los CDF evaluados en ese valor, pero para los CDF evaluados en cualquier otro y podemos ver que la secuencia P ( Y 1y ) , P ( Y 2y ) , P ( Y 3YnYFY(y)Yy=1yP(Y1y)P(Y2y) , ... converge a P ( Y y ) que es cero para y < 1 y uno para y > 1 . Esta vez, debido a que la secuencia de RV convergió en probabilidad a una constante, también convergió en distribución a una constante.P(Y3y)P(Yy)y<1y>1

Algunas aclaraciones finales:

  • Aunque la convergencia en la probabilidad implica convergencia en la distribución, lo contrario es falso en general. El hecho de que dos variables tengan la misma distribución no significa que tengan que estar cerca la una de la otra. Para un ejemplo trivial, tomar y Y = 1 - X . Entonces, X e Y tienen exactamente la misma distribución (un 50% de posibilidades de ser cero o uno) y la secuencia X n = X, es decir, la secuencia que va X , X , X , X , ...XBernouilli(0.5)Y=1XXYXn=XX,X,X,X,trivialmente converge en distribución a (el CDF en cualquier posición de la secuencia es el mismo que el CDF de Y ). Pero Y y X siempre están separados, por lo que P ( | X n - Y |0.5 ) = 1, entonces no tiende a cero, por lo que X n no converge a Y en probabilidad. Sin embargo, si hay convergencia en la distribución a una constante , entonces eso implica convergencia en la probabilidad a esa constante (intuitivamente, más adelante en la secuencia será poco probable que esté lejos de esa constante).YYYXP(|XnY|0.5)=1XnY
  • Como dejan en claro mis ejemplos, la convergencia en la probabilidad puede ser constante pero no necesariamente; La convergencia en la distribución también podría ser constante. No es posible converger en probabilidad a una constante pero converger en distribución a una distribución particular no degenerada, o viceversa.
  • ¿Es posible que hayas visto un ejemplo en el que, por ejemplo, te dijeron que una secuencia converge a otra secuencia Y n ? Puede que no te hayas dado cuenta de que era una secuencia, pero el regalo sería una distribución que también dependía de n . Puede ser que ambas secuencias converjan a una constante (es decir, distribución degenerada). Su pregunta sugiere que se está preguntando cómo una secuencia particular de RV podría converger tanto a una constante como a una distribución; Me pregunto si este es el escenario que estás describiendo.Xn Ynn
  • Mi explicación actual no es muy "intuitiva": tenía la intención de hacer que la intuición fuera gráfica, pero aún no he tenido tiempo de agregar los gráficos para los RV.

16

En mi opinión, todas las respuestas existentes transmiten puntos útiles, pero no dejan en claro una distinción importante entre los dos modos de convergencia.

Deje que , n = 1 , 2 , ... e Y sean variables aleatorias. Para la intuición, imagine que a X n se les asignan sus valores mediante algún experimento aleatorio que cambia un poco para cada n , dando una secuencia infinita de variables aleatorias, y suponga que Y obtiene su valor asignado por algún otro experimento aleatorio.Xnn=1,2,YXnnY

Si , tenemos, por definición, que la probabilidad de que Y y X n difieran entre sí en una cantidad arbitrariamente pequeña se aproxima a cero como n , por la cantidad tan pequeña que desee. Hablando sin apretar, lejos hacia fuera en la secuencia de X n , estamos seguros de X n y Y tomaremos valores muy cerca uno del otro.XnpYYXnnXnXnY

Por otro lado, si solo tenemos convergencia en la distribución y no convergencia en la probabilidad, entonces sabemos que para grande , P ( X nx ) es casi lo mismo que P ( Y x ) , para casi cualquier x . Tenga en cuenta que esto no dice nada acerca de cuán cerca están los valores de X n e Y entre sí. Por ejemplo, si Y N ( 0 , 10 10 ) , y por lo tanto X nnP(Xnx)P(Yx)xXnYYN(0,1010)Xntambién se distribuye más o menos así para grande , entonces parece intuitivamente probable que los valores de X n e Y difieran bastante en cualquier observación dada. Después de todo, si no hay ninguna restricción sobre ellos aparte de la convergencia en la distribución, pueden muy bien, por todas las razones prácticas, ser N variables independientes ( 0 , 10 10 ) .nXnYN(0,1010)

(En algunos casos puede incluso no tiene sentido comparar y Y , tal vez ni siquiera están definidos en el mismo espacio de probabilidad. Se trata de un punto de vista más técnico, sin embargo.)XnY


1
(+1) Ni siquiera necesita que varíe la : iba a agregar algunos detalles sobre esto a mi respuesta, pero decidí no hacerlo por motivos largos. Pero creo que es un punto que vale la pena hacer. Xn
Silverfish

12

Lo que no entiendo es ¿cómo puede una variable aleatoria converger a un solo número pero también converger a una distribución?

Si está aprendiendo econometría, probablemente se esté preguntando sobre esto en el contexto de un modelo de regresión. Converge en una distribución degenerada, en una constante. Pero algo más tiene una distribución limitante no degenerada.

converge en probabilidad abetasi se cumplen los supuestos necesarios. Esto significa que al elegir un tamaño de muestraNsuficientemente grande, el estimador estará tan cerca como queramos del parámetro verdadero, con la probabilidad de que esté más lejos tan pequeño como queramos. Si se piensa en el trazado de la histograma de β npara diversosn, con el tiempo ser sólo un pico centrado enβ.β^nβNβ^nnβ

¿En qué sentido hace β n converge en distribución? También converge a una constante. No a una variable aleatoria normalmente distribuida. Si calcula la varianza de β n se ve que se encoge con n . Entonces, eventualmente irá a cero en n lo suficientemente grande , por lo que el estimador va a una constante. Lo que converge a una variable aleatoria normalmente distribuida esβ^nβ^nnn

. Si tomas la varianza de eso, verás que no se contrae (ni crece) conn. En muestras muy grandes, esto será aproximadamenteN(0,σ2)bajo supuestos estándar. Podemos entonces utilizar esta aproximación para aproximar la distribución de β nen que muestra grande.n(β^nβ)nN(0,σ2)β^n

Pero tienes razón en que la distribución límite de β n es también una constante.β^n


1
Considere esto como "mirar con una lupa", con un aumento que aumenta con n a la velocidad βn^n . n
kjetil b halvorsen

7

Permítanme intentar dar una respuesta muy corta, usando algunos ejemplos muy simples.

Convergencia en distribución

Deje , para todo n, entoncesXnconverge aXN(0,1)en distribución. Sin embargo, la aleatoriedad en la realización deXnno cambia con el tiempo. Si tenemos que predecir el valor deXn, la expectativa de nuestro error no cambia con el tiempo.XnN(1n,1)XnXN(0,1)XnXn

Convergencia en probabilidad

Ahora, considere la variable aleatoria que toma el valor 0 con probabilidad 1 - 1Yn011n y lo contrario. A medida que n va al infinito, estamos cada vez más seguros de que Y n será igual a 0 . Por lo tanto, decimos que Y n converge en probabilidad a 0 . Tenga en cuenta que esto también implica que Y n converge en distribución a 0 .1nYn0Yn0Yn0

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.