Solución al problema del tanque alemán

¿Existe una prueba matemática formal de que la solución al problema del tanque alemán es función de solo los parámetros k (número de muestras observadas) ym (valor máximo entre muestras observadas)? En otras palabras, ¿se puede demostrar que la solución es independiente de los otros valores de muestra además del valor máximo?

mathematical-statistics sufficient-statistics

— Bogdan Alexandru
fuente

Lo que está preguntando es cómo mostrar que el máximo de muestra es suficiente para el parámetro especifica el límite superior de una distribución uniforme discreta de 1 a .

θ

$\theta$

θ

$\theta$

— Scortchi - Restablece a Monica

Teorema de factorización de Fisher Neyman La función de probabilidad, probabilidad de las muestras observadas (resumidas por el máximo ) dados los parámetros (el número de tanques) se puede escribir completamente en términos de y

¿Sería esa una respuesta?

k

$k$

m

$m$

n

$n$

k

$k$

m

$m$

Pr (M = m | n, k) = {\begin{cases} 0 & if m > n \\ \frac{(\binom{m - 1}{k - 1})}{(\binom{n}{k})} & if m \leq n, \end{cases}

$\Pr(M=m | n,k) = \begin{cases} 0 &\text{if } m > n \\ \frac{\binom{m - 1}{k - 1}}{\binom n k} &\text{if } m \leq n, \end{cases}$

— Sextus Empiricus

@Scortchi es correcto, gracias por reformularlo de una manera más clara para mí.

— Bogdan Alexandru

@MartijnWeterings no; esencialmente estoy pidiendo (citando el comentario de Scortchi arriba) una prueba de que el máximo de muestra es suficiente para la solución sin realmente calcular la solución.

— Bogdan Alexandru

Entonces, ¿no está buscando el teorema de factorización de Fisher Neyman como prueba?

— Sextus Empiricus

Respuestas:

Probabilidad

Los problemas comunes en la teoría de probabilidad se refieren a la probabilidad de observaciones dado un cierto modelo y dados los parámetros (llamémoslos ) involucrados. Por ejemplo, las probabilidades para situaciones específicas en juegos de cartas o juegos de dados son a menudo muy sencillas. $x_1, x_2, ... , x_n$ $\theta$

Sin embargo, en muchas situaciones prácticas estamos tratando con una situación inversa ( estadística inferencial ). Es decir: se da la observación y ahora se desconoce el modelo , o al menos no conocemos ciertos parámetros . $x_1, x_2, ... , x_k$ $\theta$

En este tipo de problemas, a menudo nos referimos a un término llamado probabilidad de los parámetros, , que es una tasa de creencia en un parámetro específico dadas observaciones . Este término se expresa como proporcional a la probabilidad de las observaciones suponiendo que un parámetro modelo sería hipotéticamente verdadero. $\mathcal{L(\theta)}$ $\theta$ $x_1, x_2, .. x_k$ $x_1, x_2, .. x_k$ $\theta$

L (θ, x_{1}, x_{2}, . . x_{k}) \propto probability observations x_{1}, x_{2}, . . x_{k} given θ

$\mathcal{L}(\theta,x_1, x_2, .. x_k) \propto \text{probability observations $x_1, x_2, .. x_k$ given $\theta$ }$

Para un valor de parámetro dado más probable sea cierta observación (en relación con la probabilidad con otros valores de parámetro), más la observación apoya este parámetro particular (o teoría / hipótesis que asume este parámetro) . Una alta probabilidad (relativa) reforzará nuestras creencias sobre el valor de ese parámetro (hay mucho más filosófico que decir sobre esto). $\theta$ $x_1, x_2, .. x_n$

Probabilidad en el problema del tanque alemán

Ahora, para el problema del tanque alemán, la función de probabilidad para un conjunto de muestras es: $x_1, x_2, .. x_k$

L (θ, x_{1}, x_{2}, . . x_{k}) = Pr (x_{1}, x_{2}, . . x_{k}, θ) = {\begin{cases} 0 & if max (x_{1}, x_{2}, . . x_{k}) > θ \\ {(\binom{θ}{k})}^{- 1} & if max (x_{1}, x_{2}, . . x_{k}) \leq θ, \end{cases}

$\mathcal{L}(\theta,x_1, x_2, .. x_k ) = \Pr(x_1, x_2, .. x_k, \theta) = \begin{cases} 0 &\text{if } \max(x_1, x_2, .. x_k) > \theta \\ {{\theta}\choose{k}}^{-1} &\text{if } \max(x_1, x_2, .. x_k) \leq \theta, \end{cases}$

Si observa las muestras {1, 2, 10} o las muestras {8, 9, 10} no debería importar cuándo se consideran las muestras desde una distribución uniforme con el parámetro . Ambas muestras son igualmente probables con probabilidad y usando la idea de probabilidad de que una muestra no diga más sobre el parámetro que la otra muestra. $\theta$ ${{\theta}\choose{3}}^{-1}$ $\theta$

Los valores altos {8, 9, 10} pueden hacerle pensar / creer que debería ser más alto. Pero, es solo el valor {10} lo que realmente le brinda información relevante sobre la probabilidad de (el valor 10 le dice que será diez o superior, los otros valores 8 y 9 no contribuyen en nada a esta información ) $\theta$ $\theta$ $\theta$

Teorema de factorización de Fisher Neyman

Este teorema le dice que un cierto estadístico (es decir, alguna función de las observaciones, como la media, la mediana o, como en el problema del tanque alemán, el máximo) es suficiente (contiene toda la información) cuando puede factorizar, en la función de verosimilitud, los términos que dependen de las otras observaciones , de modo que este factor no dependa tanto del parámetro como de (y la parte de la función de verosimilitud que relaciona los datos con los valores de parámetros hipotéticos solo depende de la estadística pero no del conjunto de datos / observaciones). $T(x_1, x_2, … , x_k)$ $x_1, x_2, … , x_k$ $\theta$ $x_1, x_2, … , x_k$

El caso del problema del tanque alemán es simple. Puede ver arriba que toda la expresión para la Probabilidad anterior ya solo depende de la estadística y el resto de los valores no importa. $\max(x_1, x_2, .. x_k)$ $x_1, x_2, .. x_k$

Pequeño juego como ejemplo

Digamos que jugamos el siguiente juego repetidamente: es en sí misma una variable aleatoria y se dibuja con igual probabilidad ya sea 100 o 110. Luego sacamos una muestra . $\theta$ $x_1,x_2,...,x_k$

Queremos elegir una estrategia para adivinar , basada en los observados que maximiza nuestra probabilidad de tener la conjetura correcta de . $\theta$ $x_1,x_2,...,x_k$ $\theta$

La estrategia adecuada será elegir 100 a menos que uno de los números de la muestra sea> 100.

Podríamos sentir la tentación de elegir el valor del parámetro 110 cuando muchos de los tienden a ser valores altos cercanos a cien (pero ninguno exactamente superior a cien), pero eso sería incorrecto. La probabilidad de tal observación será mayor cuando el verdadero valor del parámetro sea 100 que cuando sea 110. Entonces, si suponemos, en tal situación, 100 como el valor del parámetro, entonces será menos probable que cometamos un error (porque el La situación con estos valores altos cercanos a cien, pero aún por debajo, ocurre con mayor frecuencia en el caso de que el valor verdadero sea 100 en lugar de que el valor verdadero sea 110). $x_1,x_2,...,x_k$

— Sexto empírico
fuente

Impresionante, exactamente lo que necesitaba! Solo un comentario sobre su último paréntesis: está diciendo "estos valores altos cerca de cien ocurren con mayor frecuencia ...", lo cual entiendo por qué es cierto, pero solo para aclarar: es más probable que ocurra cualquier valor entre 1 y 100 cuando si el parámetro es 100 (esencialmente la probabilidad para cada número en 1-100 es 1 / parámetro).

— Bogdan Alexandru

Además, ahora su comentario inicial a mi publicación tiene sentido: si supiera cómo aplicar estos conceptos, su comentario habría sido exactamente la pista que habría necesitado para obtener la prueba. ¡Gracias de nuevo!

— Bogdan Alexandru

@BogdanAlexandru tienes razón; Es cierto para cualquier valor entre 1-100. Esa es la idea contraintuitiva, tendemos a pensar que los valores observados más altos son de alguna manera más prueba de algún valor de parámetro que los valores observados bajos, pero para cualquier número es igualmente probable y, por lo tanto, no debe contribuir a nuestras creencias sobre el parámetro modelo ( Excepto el valor máximo que observamos. Pero incluso en el juego que hice con solo elegir entre dos valores. Es tal que incluso el máximo no proporciona más información cuando es más alto o más bajo, excepto alrededor del límite de cien).

— Sextus Empiricus

Mi comentario inicial podría haber sido demasiado pesado, pero solo estaba hurgando para ver qué tipo de respuesta era necesaria. Especialmente encuentro el término 'prueba' un poco fuerte y me preguntaba si solo estaba buscando el teorema de factorización (que sería una pregunta respondida por sí cuando no conocería ese teorema) o si estaba buscando algo más vago y filosófico, como conceptos desafiantes de estadística / probabilidad e ir más allá de dicho teorema para buscar un tipo diferente de "prueba".

— Sextus Empiricus

Buena lectura de mis intenciones entonces! Gracias de nuevo.

— Bogdan Alexandru

No ha presentado una formulación precisa del "problema", por lo que no está exactamente claro qué está pidiendo que se pruebe. Desde una perspectiva bayesiana, la probabilidad posterior depende de todos los datos. Sin embargo, cada observación de un número de serie en particular apoyará más ese número. Es decir, dada cualquier observación , la razón de posibilidades entre posterior y anterior será mayor para la hipótesis "el número real de tanques es " que para "el número real de tanques es [número distinto de ]". Por lo tanto, si comenzamos con un uniforme anterior, entonces tendrá el posterior más alto después de ver esa observación. $n$ $n$ $n$ $n$

Considere un caso donde tenemos el punto de datos , y las hipótesis . Obviamente, la posterior para es cero. Y nuestros posteriores para serán más grandes que sus anteriores. La razón de esto es que en el razonamiento bayesiano, la ausencia de evidencia es evidencia de ausencia. Cada vez que tenemos una oportunidad en la que podríamos haber hecho una observación que habría disminuido nuestra probabilidad, pero no lo hace, la probabilidad aumenta. Como podríamos haber visto , lo que habría establecido nuestras posteriores para a cero, el hecho de que no lo vimos significa que deberíamos aumentar nuestras posteriores para $13$ $N=10,13,15$ $N=10$ $N=13,15$ $16$ $N=13,15$ $N=13,15$ . Pero tenga en cuenta que cuanto menor sea el número, más números podríamos haber visto que hubieran excluido ese número. Para , habríamos rechazado esa hipótesis después de ver . Pero para , hubiéramos necesitado al menos para rechazar la hipótesis. Dado que la hipótesis es más falsificable que , el hecho de que no falsificamos es más evidencia de , que no falsificar es evidencia de . $N=13$ $14,15,16,...$ $N=15$ $16$ $N=13$ $N=15$ $N=13$ $N=13$ $N=15$ $N=15$

Entonces, cada vez que vemos un punto de datos, establece la parte posterior de todo lo que está debajo de él en cero, y aumenta la parte posterior de todo lo demás, con números más pequeños que obtienen el mayor impulso. Por lo tanto, el número que obtiene el mayor impulso general será el número más pequeño cuyo posterior no se estableció en cero, es decir, el valor máximo de las observaciones.

Los números menores que el máximo afectan la cantidad de impulso que aumenta el máximo, pero no afecta la tendencia general de que el máximo obtenga el mayor impulso. Considere el ejemplo anterior, donde ya hemos visto . Si el siguiente número que vemos es , ¿qué efecto tendrá eso? Ayuda a más de , pero ambos números ya han sido rechazados, por lo que no es relevante. Ayuda a más de , pero ya ha recibido más de , por lo que eso no afecta a qué número se ha ayudado más. $13$ $5$ $5$ $6$ $13$ $15$ $13$ $15$

— Acumulacion
fuente

Este ejemplo depende mucho de la situación y las declaraciones no son generales. Por ejemplo, si el previo es 50% para 13 y 50% para 15, entonces la observación de 13 no es tal que "nuestros posteriores para N = 13, 15 serán más grandes que sus anteriores" Las observaciones pueden disminuir el posterior en relación con el anterior .

— Sextus Empiricus

Además, la observación de más números adicionales puede cambiar la inferencia. En el caso "si el siguiente número que vemos es 5 ..." , la parte posterior seguirá cambiando, incluso cuando los números ya hayan sido "ayudados", los números adicionales pueden aumentar esta "ayuda" (por ejemplo, cuando muestreas todos los números 1,2, ... 12, 13, entonces esto aumentará la parte posterior durante 13 más que cuando solo muestreas 13)

— Sextus Empiricus