Predicción e intervalos de tolerancia

Tengo un par de preguntas para los intervalos de predicción y tolerancia.

Acordemos primero la definición de los intervalos de tolerancia: se nos da un nivel de confianza, digamos 90%, el porcentaje de la población a capturar, digamos 99%, y un tamaño de muestra, digamos 20. La distribución de probabilidad es conocida, digamos normal por conveniencia. Ahora, dados los tres números anteriores (90%, 99% y 20) y el hecho de que la distribución subyacente es normal, podemos calcular el número de tolerancia . Dada una muestra con media y la desviación estándar , la tolerancia del intervalo es $k$ $(x_1,x_2,\ldots,x_{20})$ $\bar{x}$ $s$ $\bar{x}\pm ks$ . Si este intervalo de tolerancia captura al 99% de la población, entonces la muestra se llama un éxito y el requisito es que el 90% de las muestras sean exitosas . $(x_1,x_2,\ldots,x_{20})$

Comentario: 90% es la probabilidad a priori de que una muestra sea un éxito. El 99% es la probabilidad condicional de que una observación futura estará en el intervalo de tolerancia, dado que la muestra es un éxito.

Mis preguntas: ¿Podemos ver los intervalos de predicción como intervalos de tolerancia? Mirando en la web obtuve respuestas contradictorias sobre esto, sin mencionar que nadie realmente definió los intervalos de predicción con cuidado. Entonces, si tiene una definición precisa del intervalo de predicción (o una referencia), se lo agradecería.

Lo que entendí es que un intervalo de predicción del 99%, por ejemplo, no captura el 99% de todos los valores futuros para todas las muestras. Esto sería lo mismo que un intervalo de tolerancia que captura al 99% de la población con un 100% de probabilidad.

En las definiciones que encontré para un intervalo de predicción del 90%, el 90% es la probabilidad a priori dada una muestra, digamos (el tamaño es fijo) y una sola observación futura , que estará en el intervalo de predicción. Entonces, parece que tanto la muestra como el valor futuro se dan al mismo tiempo, en contraste con el intervalo de tolerancia, donde se da la muestra y con una cierta probabilidad de que sea un éxito , y bajo la condición de que la muestra sea un exito $(x_1,x_2,\ldots,x_{20})$ $y$ $y$ , se da un valor futuro y con cierta probabilidad cae dentro del intervalo de tolerancia. No estoy seguro de si la definición anterior del intervalo de predicción es correcta o no, pero parece contradictorio (al menos).

¿Alguna ayuda?

prediction prediction-interval tolerance-interval

— Ioannis Souldatos
fuente

Los intervalos de tolerancia unilaterales para un muestreo normal pueden ayudar a comprender esta noción. Un límite superior de tolerancia del

no es más que un límite de confianza superior del cuantitativo del

de la distribución supuesta del modelo. Por lo tanto, en el caso de una distribución normal, este es un límite de confianza superior del parámetro

donde

es el

de la distribución gaussiana estándar.

99 %

$99\%$

99 %

$99\%$

μ + k σ

$\mu + k\sigma$

k = z_{99 %}

$k=z_{99\%}$

99 %

$99\%$

— Stéphane Laurent

Esta es una buena reformulación, Stéphane, porque muestra inmediatamente que hay varios tipos de límites de tolerancia: se puede solicitar un límite de confianza superior en

, un límite de confianza inferior en

, o para ( digamos) una estimación imparcial de ese parámetro. Los tres se llaman "límites de tolerancia" en la literatura.

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$

— whuber

Creo que prefieres decir un límite de confianza más bajo en

μ - z_{0.99} σ

$\mu - z_{0.99}\sigma$

— Stéphane Laurent

En realidad, no, Stéphane (por eso me ocupé de repetir la fórmula del parámetro). También hay tres definiciones similares para un límite de tolerancia inferior . Por ejemplo, lo que se quiere debajo -Estimación la 99 percentil superior de la población, sino para controlar la cantidad de subestimación insistimos no ser (por ejemplo) un 5% de probabilidad de que nuestra subestimación todavía será demasiado alto. Esto nos permitirá decir cosas como "Los datos muestran, con un 95% de confianza, que el percentil 99 de la población excede tal o cual valor".

— whuber

Respuestas:

Sus definiciones parecen ser correctas.

El libro para consultar sobre estos asuntos es Intervalos estadísticos (Gerald Hahn y William Meeker), 1991. Cito:

Un intervalo de predicción para una sola observación futura es un intervalo que contendrá, con un grado específico de confianza, la siguiente observación (o alguna otra especificada previamente) de una población seleccionada al azar.

$100(1-\alpha)\%$

$\mathbf{x}=(x_1,\ldots,x_n)$ $\mathbf{X}=(X_1,\ldots,X_n)$ $F_\theta$ $\theta$ $F$ ${F_\theta \vert \theta \in \Theta}$ $X_0$ $F_\theta$ $n$

$[l(\mathbf{x}), u(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (X_{0} \in [l (X), u (X)])} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta(X_0 \in [l(\mathbf{X}), u(\mathbf{X})])\}= 100(1-\alpha)\%.$
${\Pr}_\theta$ $n+1$ $(X_0, X_1, \ldots, X_n)$ $F_\theta$ $X_0$

$X_i, i=1,\ldots,n$ $X_0$
$(L(\mathbf{x}), U(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (F_{θ} (U (X)) - F_{θ} (L (X)) \geq p)} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta\left(F_\theta(U(\mathbf{X})) - F_\theta(L(\mathbf{X})\right) \ge p)\} = 100(1-\alpha)\%.$
$X_0$

$\{F_\theta\}$

l (x) = \bar{x} - k (α, n) s, u (x) = \bar{x} + k (α, n) s

$l(\mathbf{x}) = \bar{x} - k(\alpha, n) s, \quad u(\mathbf{x}) = \bar{x} + k(\alpha, n) s$

$\bar{x}$ $s$ $k$ $\mathbf{x}$

Del mismo modo, existen intervalos de tolerancia de la forma

L (x) = \bar{x} - K (α, n, p) s, U (x) = \bar{x} + K (α, n, p) s .

$L(\mathbf{x}) = \bar{x} - K(\alpha, n, p) s, \quad U(\mathbf{x}) = \bar{x} + K(\alpha, n, p) s.$

Existen otros procedimientos de intervalo de tolerancia : estos no son los únicos.

Observando la similitud entre estos pares de fórmulas, podemos resolver la ecuación

k (α, n) = K (α^{'}, n, p) .

$k(\alpha, n) = K(\alpha', n, p).$

$\alpha'$ $p$ $\alpha$ $\alpha'$ $p$

— whuber
fuente

La confusión entre estos intervalos es real. Hace una década tuve varias conversaciones difíciles con un estadístico del gobierno que ignoraba la diferencia y (virulentamente) incapaz de reconocerla. Su papel destacado en la creación de orientación, revisión de informes, asesoramiento a trabajadores sociales, distribución de software e incluso publicaciones revisadas por pares ha promovido la continuidad de estos conceptos erróneos. ¡Así que ten cuidado!

— whuber

p = 50 %

$p=50\%$

k (α, n) = K (α, n, 0.5)

$k(\alpha,n)=K(\alpha,n,0.5)$

n

$n$

p = 50 %

$p=50\%$

X_{0}

$X_0$

k (α, n) \approx K (50 %, n, 1 - α)

$\boxed{k(\alpha,n) \approx K(50\%,n,1-\alpha)}$

n

$n$

K

$K$

50 %

$50\%$

z_{1 - α} / \sqrt{n}

$z_{1-\alpha}/\sqrt{n}$

@whuber. Gracias por la respuesta. Tendré que asegurarme de que lo entiendo, antes de marcarlo como correcto. Dame algo de tiempo para "digerirlo".

— Ioannis Souldatos

$K(\alpha,p)$

— Scott P.
fuente