Misma media, varianza diferente

Supongamos que tienes ocho corredores corriendo una carrera; la distribución de sus tiempos de ejecución individuales es Normal y cada uno tiene una media de $11$ segundos, por ejemplo. La desviación estándar del corredor uno es la más pequeña, dos la segunda más pequeña, la tercera más pequeña, etc., y ocho la más grande. Dos preguntas me confunden: (1) ¿Cuál es la probabilidad de que el primero venza al último y (2) quién tiene más probabilidades de ganar la carrera?

Mis respuestas son $1/2$ y $8$ , respectivamente. Dado que comparten la misma media, la probabilidad de que $\bar x_1-\bar x_8\lt 0$ es sólo $1/2$ , no? ¿Cómo puedo demostrar rigurosamente la segunda parte y se puede calcular una probabilidad exacta de ganar? Gracias por adelantado.

— George Tedder
fuente

@Silverfish Al comparar primero (modelado como la variable aleatoria

) con el último (

, asumido independientemente de

), solo necesitamos considerar

. Esto tiene una distribución continua simétrica con media cero. La posibilidad de que los primeros latidos última es la probabilidad de que

, que (por simetría y continuidad) es igual a

como se reivindica. Aunque el último tiene una mayor probabilidad de ganar la carrera, no hay paradoja: la mayoría de las veces, cuando el primer golpe es el último, alguien más ganará la carrera.

X_{1}

$X_1$

X_{n}

$X_n$

X_{1}

$X_1$

Z = X_{1} - X_{n}

$Z=X_1-X_n$

Z < 0

$Z\lt 0$

1 / 2

$1/2$

— whuber

@whuber Gracias, logré descifrar lo que quise decir: lo eliminaré para evitar confusiones. La cifra de 1/2 es correcta, pero la respuesta para comparar sus tiempos medios

es incorrecta y parece invitar a la confusión con las medias de la población. Mientras escribes, debería ser la diferencia en la

\bar{x_{i}}

$\bar{x_i}$

X_{i}

$X_i$

— Silverfish

@Silver Esto resalta el peligro de asumir que siempre sabemos lo que significa la notación de alguien, solo porque parece familiar. Pasé por alto ese tema (con líneas generales que aparecen en "

" y "

") porque el significado deseado era lo suficientemente claro e implicaba que ninguno de ellos podría representar el significado de nada: en este contexto tienen que representar el variables aleatorias en sí (que escribí

x_{1}

$x_1$

x_{8}

$x_8$

X_{1}

$X_1$

X_{n}

$X_n$

— whuber

Aunque no se puede calcular una probabilidad exacta (excepto en circunstancias especiales con ), se puede calcular numéricamente rápidamente con gran precisión. A pesar de esta limitación, se puede demostrar rigurosamente que el corredor con la mayor desviación estándar tiene la mayor posibilidad de ganar. La figura muestra la situación y muestra por qué este resultado es intuitivamente obvio: $n \le 2$

Figura

Se muestran las densidades de probabilidad para los tiempos de cinco corredores. Todos son continuos y simétricos sobre una media común. $\mu$ . (Se utilizaron densidades beta escaladas para garantizar que todos los tiempos sean positivos). Una densidad, dibujada en azul más oscuro, tiene una propagación mucho mayor. La porción visible en su cola izquierda representa los tiempos que ningún otro corredor puede igualar. Debido a que esa cola izquierda, con su área relativamente grande, representa una probabilidad apreciable, el corredor con esta densidad tiene la mayor probabilidad de ganar la carrera. (¡También tienen la mayor posibilidad de llegar al final!)

Estos resultados están probados para algo más que distribuciones normales: los métodos presentados aquí se aplican igualmente bien a distribuciones simétricas y continuas. (Esto será de interés para cualquier persona que se oponga al uso de distribuciones normales para modelar tiempos de ejecución). Cuando se violan estas suposiciones, es posible que el corredor con la mayor desviación estándar no tenga la mayor posibilidad de ganar (dejo la construcción de contraejemplos a lectores interesados), pero aún podemos probar bajo suposiciones más suaves que el corredor con mayor SD tendrá la mejor oportunidad de ganar siempre que SD sea lo suficientemente grande.

La figura también sugiere que se podrían obtener los mismos resultados al considerar los análogos unilaterales de la desviación estándar (la llamada "semivariancia"), que miden la dispersión de una distribución a un solo lado. Un corredor con gran dispersión hacia la izquierda (hacia mejores tiempos) debería tener una mayor posibilidad de ganar, independientemente de lo que ocurra en el resto de la distribución. Estas consideraciones nos ayudan a apreciar cómo la propiedad de ser el mejor (en un grupo) difiere de otras propiedades como los promedios.

Deje ser variables aleatorias que representan los tiempos de los corredores. La pregunta supone que son independientes y normalmente distribuidos con media común . (Aunque este es literalmente un modelo imposible, ya que presenta probabilidades positivas para tiempos negativos, aún puede ser una aproximación razonable a la realidad siempre que las desviaciones estándar sean sustancialmente más pequeñas que ). $X_1, \ldots, X_n$ $\mu$ $\mu$

Para llevar a cabo el siguiente argumento, conserve la suposición de independencia, pero suponga que las distribuciones de son dadas por y que estas leyes de distribución pueden ser cualquier cosa. Por conveniencia, también suponga que la distribución es continua con densidad . Más tarde, según sea necesario, podemos aplicar supuestos adicionales siempre que incluyan el caso de distribuciones normales. $X_i$ $F_i$ $F_n$ $f_n$

Para cualquier e infinitesimal , la probabilidad de que el último corredor tenga un tiempo en el intervalo y sea el corredor más rápido se obtiene multiplicando todas las probabilidades relevantes (porque todos los tiempos son independientes): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

La integración sobre todas estas posibilidades mutuamente excluyentes produce

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

Para distribuciones normales, esta integral no puede evaluarse en forma cerrada cuando : necesita evaluación numérica. $n\gt 2$

Figura

Esta figura traza el integrando para cada uno de los cinco corredores que tienen desviaciones estándar en la proporción 1: 2: 3: 4: 5. Cuanto más grande sea la SD, más se desplazará la función hacia la izquierda, y mayor será su área. Las áreas son aproximadamente 8: 14: 21: 26: 31%. En particular, el corredor con la mayor SD tiene un 31% de posibilidades de ganar.

Aunque no se puede encontrar una forma cerrada, aún podemos sacar conclusiones sólidas y demostrar que el corredor con la mayor SD tiene más probabilidades de ganar. Necesitamos estudiar lo que sucede cuando la desviación estándar de una de las distribuciones, digamos , cambia. Cuando la variable aleatoria se vuelve a escalar por alrededor de su media, su SD se multiplica por y cambiará a $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ . Hacer el cambio de la variable en la integral da una expresión para la posibilidad de que el corredor gane, en función de : $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

Supongamos ahora que las medianas de todas las distribuciones son iguales y que todas las distribuciones son simétricas y continuas, con densidades . (Este ciertamente es el caso en las condiciones de la pregunta, porque una mediana normal es su media). Mediante un cambio simple (de ubicación) de la variable podemos suponer que esta mediana común es ; la simetría significa y $n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ $1 - F_j(-y) = F_j(y)$ $y$ $(-\infty, 0]$ $(0,\infty)$

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

The function $\phi$ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

for $i=1, 2, \ldots, n-1$ .

The assumptions we made about the distributions were designed to assure that $F_j(x) \ge 1-F_j(x)$ for $x\ge 0$ . Thus, since $x=y\sigma\ge 0$ , each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors $y f_n(y) f_i(y\sigma)$ are clearly nonnegative because densities cannot be negative and $y\ge 0$ . We may conclude that $\phi^\prime(\sigma) \ge 0$ for $\sigma \ge 0$ , proving that the chance that player $n$ wins increases with the standard deviation of $X_n$ .

This is enough to prove that runner $n$ will win provided the standard deviation of $X_n$ is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the $X_i$ are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to $1/n$ ). Start by setting all distributions to that of runner $n$ . Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that $n$ wins cannot decrease, while the chances of all the other runners have decreased. Consequently, $n$ has the greatest chances of winning, QED.

— whuber
fuente

@Phonon That's correct. (But please do not confuse the distributions with estimates derived from samples. The distribution is a mathematical model, not a set of data.) Increasing the SD by a factor of

λ

$\lambda$ , say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by

1 / λ

$1/\lambda$ , thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.

— whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.

— Phonon