Muchos archivos PDF varían de menos a infinito positivo, sin embargo, algunos medios están definidos y otros no. ¿Qué rasgo común hace que algunos sean computables?
Muchos archivos PDF varían de menos a infinito positivo, sin embargo, algunos medios están definidos y otros no. ¿Qué rasgo común hace que algunos sean computables?
Respuestas:
La media de una distribución se define en términos de una integral (la escribiré como si fuera una distribución continua, como una integral de Riemann, por ejemplo), pero el problema se aplica de manera más general; podemos proceder a la integración de Stieltjes o Lebesgue para tratar estos correctamente y todo a la vez):
Pero ¿qué significa eso? Efectivamente es una abreviatura para
o
(aunque podría romperlo en cualquier lugar, no solo en 0)
El problema surge cuando los límites de esas integrales no son finitos.
Entonces, por ejemplo, considere la densidad estándar de Cauchy, que es proporcional a ... tenga en cuenta que
sea , entonces d u = 2 x
que no es finito El límite en la mitad inferior tampoco es finito; la expectativa es por lo tanto indefinida.
O si tuviéramos como nuestra variable aleatoria el valor absoluto de un Cauchy estándar, toda su expectativa sería proporcional al límite que acabamos de observar (es decir, ).
Por otro lado, algunas otras densidades continúan "hasta el infinito" pero su integral tiene un límite.
Las otras respuestas son buenas, pero podrían no convencer a todos, especialmente a las personas que echan un vistazo a la distribución de Cauchy (con ) y dicen que todavía es intuitivamente obvio que la media debería ser cero.
La razón por la cual la respuesta intuitiva no es correcta desde la perspectiva matemática se debe al teorema de reordenamiento de Riemann (video) .
Efectivamente, lo que está haciendo cuando mira a un Cauchy y dice que la media "debería ser cero" es que está dividiendo el "centro" en cero, y luego reclama los momentos del equilibrio de dos tamaños. O, en otras palabras, implícitamente estás haciendo una suma infinita con "la mitad" de los términos positivos (los momentos en cada punto a la derecha) y "la mitad" de los términos negativos (los momentos en cada punto a la izquierda) y reclamarlo sumas a cero. (Para personas con mentalidad técnica: )
El teorema de reordenamiento de Riemann dice que este tipo de suma infinita (una con términos positivos y negativos) solo es consistente si las dos series (términos positivos solamente y términos negativos solamente) son convergentes cuando se toman independientemente. Si ambos lados (positivo y negativo) son divergentes por sí mismos, entonces puede llegar a un orden de suma de los términos de tal manera que sume cualquier número. (Video de arriba, a partir de las 6:50)
Entonces, sí, si haces la suma de manera equilibrada desde 0 hacia afuera, los primeros momentos de la distribución de Cauchy se cancelan. Sin embargo, la definición (estándar) de media no impone este orden de suma. Debería poder sumar los momentos en cualquier orden y hacer que sea igualmente válido. Por lo tanto, la media de la distribución de Cauchy no está definida: al elegir juiciosamente cómo se suman los momentos, puede hacer que se "equilibren" (o no) prácticamente en cualquier momento.
Entonces, para definir la media de una distribución, las integrales de dos momentos deben ser cada una independientemente convergentes (finitas) alrededor de la media propuesta (que, cuando haces las matemáticas, es realmente solo otra forma de decir que la integral completa ( ) necesita ser convergente). Si las colas son lo suficientemente "gordas" como para que el momento de un lado sea infinito, ya está. No puedes equilibrarlo con un momento infinito en el otro lado.
Debo mencionar que el comportamiento "contra intuitivo" de cosas como la distribución de Cauchy se debe completamente a problemas al pensar en el infinito. Tome la distribución de Cauchy y corte las colas, incluso arbitrariamente lejos, como más / menos el número xkcd , y (una vez normalizado) de repente obtiene algo que se comporta bien y tiene una media definida. No son las colas gruesas en sí mismas las que son un problema, es cómo se comportan esas colas cuando te acercas al infinito.
El general Abrial y Glen_b tuvieron respuestas perfectas. Solo quiero agregar una pequeña demostración para mostrarle que la media de la distribución de Cauchy no existe / no converge.
En el siguiente experimento, verá, incluso si obtiene una muestra grande y calcula la media empírica de la muestra, los números son bastante diferentes de un experimento a otro.
set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))
Puede observar que tenemos experimentos, y en cada experimento, tomamos muestras de 1 × 10 5 puntos de dos distribuciones, con un tamaño de muestra tan grande, la media empírica en diferentes experimentos debería estar bastante cerca de la media real. Los resultados muestran que la distribución de Cauchy no tiene una media convergente, pero la distribución normal sí.
EDITAR:
Como @ mark999 mencionó en el chat, deberíamos argumentar que las dos distribuciones utilizadas en el experimento tienen una "varianza" similar (la razón por la que uso la cita es porque la varianza de distribución de Cauchy también está indefinida). Aquí está la justificación: sus PDF son similares.
curve(dnorm, -8,8)
curve(dcauchy, -8,8)
Por definición de Lebesgue-Stieltjes integral, la media existe si:
https://en.wikipedia.org/wiki/Moment_(mathematics)#Significance_of_the_moments
Como la distribución en el círculo es rotacionalmente simétrica, no puede haber una media, mediana o moda en el círculo. Del mismo modo, los momentos superiores, como la varianza, no pueden tener sentido. Esta distribución surge naturalmente en muchos contextos. Por ejemplo, mi proyecto actual involucra imágenes de microscopio de tejido canceroso. Los numerosos objetos en la imagen no son simétricos y se puede asignar una "dirección" a cada uno. La hipótesis nula obvia es que estas direcciones están distribuidas uniformemente.