Comparando 0/10 con 0/20

Cuando se discuten las tasas de logro de tareas, ¿hay alguna forma de demostrar que 0 de 20 intentos es "peor" que 0 de 10 intentos?

probability sampling

— vinne
fuente

Puede intentar usar en.wikipedia.org/wiki/Additive_smoothing pero será más bien agitar las manos que una prueba sólida

— abukaj

¿Cómo sabes que es peor? Por ejemplo, si solo fueran posibles 10 intentos, entonces no sabes cuál sería el puntaje con más intentos.

— Tim

¿Quizás un intervalo de confianza para la proporción estimada?

— mdewey 01 de

Esto me parece una pregunta razonable. Se basa en una intuición perfectamente normal que puede discutirse, y existen formas estadísticas (por ejemplo, bayesianas) para abordar el problema. Estoy votando para dejarlo abierto.

— gung - Restablece a Monica

Estoy de acuerdo con @gung. Esta es una buena pregunta.

— Alexis

Respuestas:

Supongamos que sabemos la probabilidad de éxito en un intento. En este caso calculamos la probabilidad de 0 de 10 y 0 de 20 casos.

Sin embargo, en este caso vamos al revés. No sabemos la probabilidad, tenemos los datos e intentamos estimar la probabilidad.

Cuantos más casos tengamos, más seguros podemos estar con respecto a los resultados. Si lanzo una moneda y será cara, no estarás muy seguro de que es doble. Si lo lanzo 1,000 veces y serán todas las cabezas, es poco probable que esté equilibrado.

Hay métodos que fueron diseñados para considerar el número de senderos al dar las estimaciones. Uno de ellos es el suavizado aditivo del que @abukaj comenta más arriba. En el suavizado aditivo, agregamos pseudo muestras adicionales en consideración. En nuestro caso, en lugar del camino que hemos visto, agregamos dos más: uno exitoso y otro fallido.

En el primer caso, la probabilidad suavizada será = ~ 8.3% $\frac{1+0}{10 +1 +1}$ $\frac{1}{12}$
En el segundo caso obtendremos = ~ 4.5% $\frac{1+0}{20 +1 +1}$ $\frac{1}{22}$

Tenga en cuenta que el suavizado aditivo es solo un método de estimación. Obtendrá diferentes resultados con diferentes métodos. Incluso con el suavizado aditivo en sí mismo, habría obtenido resultados diferentes si hubiera agregado 4 pseudo muestras.

Otro método es usar el intervalo de confianza como sugirió @mdewey. Cuantas más muestras tengamos, más corto será el intervalo de confianza. El tamaño del intervalo de confianza es proporcional a la raíz cuadrada de las muestras: . Por lo tanto, duplicar el número de muestras conducirá a un intervalo de confianza más corto. $\frac{1}{\sqrt{n}}$ $\sqrt{2}$

La media en ambos casos es 0. Tomamos un nivel de confianza del 90% (z = 1.645)

En el primer caso obtendremos 0 + $\frac{1.645}{\sqrt{10}}$ ~ 52%
$\frac{1.645}{\sqrt{20}}$

En caso de falta de datos, existe incertidumbre. Las suposiciones que haga y los datos externos que usará cambiarán lo que obtendrá.

— DaL
fuente

Muchas gracias Dan Levin. Su respuesta fue lo suficientemente clara como para que un no matemático la siguiera, y, sin embargo, lo suficientemente sólida como para que yo acepte intuitivamente su explicación. Gracias a todos los comentaristas por su aporte.

— Vinne

Extendiendo la idea de invocar intervalos de confianza, existe el concepto de un intervalo binomial exacto.

$p$ $q=1-p$ $k$ $n$

p_{n, k} = (\binom{n}{k}) p^{k} q^{n - k} = \frac{n!}{k! (n - k)!} p^{k} q^{n - k}

$p_{n,k} = {n \choose k} p^k q^{n-k} = \frac{n!}{k!(n-k)!} p^k q^{n-k}$

El concepto del intervalo de confianza es vincular un conjunto de valores posibles de los parámetros del modelo (aquí, probabilidades de éxito ) para que podamos hacer declaraciones probabilísticas (bueno, frecuentas ) sobre si el valor del parámetro verdadero está dentro de este intervalo (es decir , que si repetimos el experimento probabilístico de hacer 10 o 20 ensayos, y construimos el intervalo de confianza de una manera específica, observaremos que el verdadero valor del parámetro está dentro del intervalo el 95% del tiempo). $p$

En este caso, podemos resolver para en esa fórmula: $p$

p_{n, 0} = (1 - p)^{n}

$p_{n,0}=(1-p)^n$

Entonces, si quisiéramos un intervalo unilateral del 95%, estableceríamos para resolver la probabilidad de que el conteo cero observado sea como máximo 5%. Para , la respuesta es (es decir, en el extremo, si la probabilidad de éxito en cada prueba es 13.9%, entonces la probabilidad de observar cero éxitos es 5%). Para , la respuesta es . Entonces, de una muestra de , aprendimos más que de la muestra de , en el sentido de que podemos `` excluir '' el rango que la muestra de Todavía se va como plausible. $p_{n,0}=5\%$ $n=20$ $[0\%,13.9\%]$ $n=10$ $[0\%,25.9\%]$ $n=20$ $n=10$ $[13.9\%,25.9\%]$ $n=10$

— StasK
fuente

Un enfoque bayesiano

Deje que para sea una serie de variables aleatorias de Bernoulli IID con el parámetro . $X_i$ $i=1,\ldots n$ $p$
Representemos nuestra incertidumbre sobre el parámetro asumiendo que sigue la distribución Beta con hiperparámetros y . $p$ $\alpha$ $\beta$

La función de probabilidad es Bernoulli y la distribución Beta es un conjugado anterior para la distribución de Bernoulli, por lo tanto, la posterior sigue a la distribución Beta. Además, el posterior está parametrizado por:

\hat{α} = α + \sum_{i = 1}^{n} X_{i} \hat{β} = β + n - \sum_{i = 1}^{n} X_{i}

$\hat{\alpha} = \alpha + \sum_{i=1}^n X_i \quad \quad \hat{\beta} = \beta + n - \sum_{i=1}^n X_i$

Por consiguiente:

\begin{aligned} E [p ∣ X_{1}, \dots, X_{n}] & = \frac{\hat{α}}{\hat{α} + \hat{β}} \\ = \frac{α + \sum_{i = 1}^{n} X_{i}}{α + β + n} \end{aligned}

$\begin{align*} \mathrm{E}[p \mid X_1, \ldots, X_n] &= \frac{\hat{\alpha}}{\hat{\alpha} + \hat{\beta}}\\ &= \frac{\alpha + \sum_{i=1}^n X_i }{\alpha + \beta + n} \end{align*}$

Por lo tanto, si ve 10 fallas, su expectativa de es , y si ve 20 fallas, su expectativa de es . Cuantos más fracasos vea, menor será su expectativa de . $p$ $\frac{\alpha}{\alpha + \beta + 10}$ $p$ $\frac{\alpha}{\alpha + \beta + 20}$ $p$

¿Es este un argumento razonable? Depende de cómo se sienta acerca de las estadísticas bayesianas, si está dispuesto a modelar la incertidumbre sobre algún parámetro utilizando la mecánica de la probabilidad. Y depende de cuán razonable sea su elección de un prior. $p$

— Matthew Gunn
fuente