¿Podemos hacer declaraciones probabilísticas con intervalos de predicción?


12

He leído las excelentes discusiones en el sitio sobre la interpretación de los intervalos de confianza y los intervalos de predicción, pero un concepto sigue siendo un poco desconcertante:

Considere el marco OLS y hemos obtenido el modelo ajustado . Se nos da una y se nos pide que predijamos su respuesta. Calculamos y, como beneficio adicional, también proporcionamos un intervalo de predicción del 95% alrededor de nuestra predicción, al igual que Obteniendo una fórmula para los límites de predicción en un modelo lineal . Llamemos a este intervalo de predicción PI. x*x*T βy^=Xβ^xxTβ^

Ahora, ¿cuál de las siguientes (o ninguna) es la interpretación correcta de PI?

  1. Para en particular, encuentra dentro de PI con un 95% de probabilidad. y ( x )xy(x)
  2. Si se nos da una gran cantidad de s, este procedimiento para calcular los IP cubrirá las respuestas verdaderas el 95% del tiempo.x

De la redacción de @gung en el intervalo de predicción de regresión lineal , parece que lo primero es cierto (aunque podría muy bien estar malinterpretando). La interpretación 1 me parece contradictoria (en el sentido de que estamos sacando conclusiones bayesianas del análisis frecuentista), pero si es correcto, ¿es porque estamos prediciendo la realización de una variable aleatoria frente a la estimación de un parámetro ?

(Editar) Pregunta adicional: Supongamos que sabemos cuál es la verdadera , es decir, el proceso que genera los datos, entonces ¿podríamos hablar sobre las probabilidades con respecto a cualquier predicción en particular, ya que solo estamos viendo ?ϵβϵ

Mi último intento en esto: podemos "descomponer conceptualmente" (usando la palabra muy libremente) un intervalo de predicción en dos partes: (A) un intervalo de confianza alrededor de la respuesta media pronosticada, y (B) una colección de intervalos que son simplemente cuantiles rangos del término de error. (B) podemos hacer declaraciones probabilísticas, condicionadas al conocimiento de la media pronosticada verdadera, pero en su conjunto, solo podemos tratar los intervalos de predicción como IC frecuentes en torno a los valores pronosticados. ¿Es esto algo correcto?


La respuesta que escribí en stats.stackexchange.com/a/26704 implica que algo así como (2) es el caso (de acuerdo con las leyes de grandes números) pero definitivamente no (1).
whuber

Respuestas:


5

Primero, sobre el uso de la palabra probabilidad, los frecuentas no tienen ningún problema con el uso de la palabra probabilidad cuando predicen algo donde la pieza aleatoria aún no ha tenido lugar. No nos gusta la palabra probabilidad para un intervalo de confianza porque el parámetro verdadero no está cambiando (suponemos que es un valor fijo, aunque desconocido) y el intervalo es fijo porque se basa en datos que ya hemos recopilado. Por ejemplo, si nuestros datos provienen de una muestra aleatoria de humanos adultos masculinos yx es su altura ey es su peso y ajustamos el modelo de regresión general, entonces no usamos probabilidad cuando hablamos de los intervalos de confianza. Pero si quiero hablar sobre cuál es la probabilidad de que un hombre de 65 pulgadas de alto sea elegido al azar entre todos los hombres de 65 pulgadas de alto que tengan un peso dentro de un cierto intervalo,

Entonces diría que la respuesta a la pregunta adicional es "Sí". Si supiéramos suficiente información, entonces podríamos calcular la probabilidad de ver un valor ay dentro de un intervalo (o encontrar un intervalo con la probabilidad deseada).

Para su declaración con la etiqueta "1". Yo diría que está bien si usa una palabra como "aproximada" cuando habla sobre el intervalo o la probabilidad. Como mencionó en la pregunta de bonificación, podemos descomponer la incertidumbre en una parte sobre el centro de la predicción y una parte sobre la aleatoriedad en torno a la media real. Cuando combinamos estos para cubrir toda nuestra incertidumbre (y asumiendo que tenemos el modelo / normalidad correcto) tenemos un intervalo que tenderá a ser demasiado amplio (aunque también puede ser demasiado estrecho), por lo que la probabilidad de un nuevo punto elegido al azar caer en el intervalo de predicción no será exactamente el 95%. Puedes ver esto por simulación. Comience con un modelo de regresión conocido con todos los parámetros conocidos. Elija una muestra (a través de muchos valores x) de esta relación, ajuste una regresión, y calcule los intervalos de predicción. Ahora genere una gran cantidad de nuevos puntos de datos del modelo verdadero nuevamente y compárelos con los intervalos de predicción. Lo hice varias veces usando el siguiente código R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Ejecuté el código anterior varias veces (alrededor de 10, pero no mantuve un conteo cuidadoso) y la mayoría de las veces la proporción de nuevos valores que caen en los intervalos oscilaba entre el 96% y el 98%. Tuve un caso en el que la desviación estándar estimada era muy baja y las proporciones estaban en el rango del 93% al 94%, pero el resto estaba por encima del 95%. Por lo tanto, estaría contento con su afirmación 1 con el cambio a "aproximadamente el 95%" (suponiendo que todas las suposiciones sean ciertas o lo suficientemente cercanas como para cubrirlas aproximadamente).

Del mismo modo, la declaración 2 necesita un "aproximadamente" o similar, porque para cubrir nuestra incertidumbre estamos capturando en promedio más del 95%.


0

El segundo es mejor. El primero depende de qué otra información se conozca.

Usando un ejemplo aleatorio, es cierto que "el 95% de los intervalos (con una confianza del 95%) incluiría la media real de [insertar variable]".

Por otro lado, si un resultado es obviamente contrario a la intuición, no podemos afirmar (1).

Por ejemplo, "mi prueba de significación al 95% de confianza muestra que la altura y el peso están correlacionados negativamente ". Bueno, eso es obviamente falso, y no podemos decir que haya una "probabilidad del 95% de que sea cierto". De hecho, teniendo en cuenta el conocimiento previo, hay una probabilidad muy pequeña de que sea cierto. Sin embargo, es válido decir que "el 95% de tales pruebas habría arrojado un resultado correcto".


1
Esta respuesta parece discutir intervalos de confianza en lugar de intervalos de predicción.
whuber

@whuber Se aplica el mismo principio. Básicamente estamos tratando con intervalos de confianza para una determinada variable (la variable "predicha").

2
Hay una distinción importante entre un valor fijo (como un parámetro) y el valor de una variable aleatoria. Además, el corazón de la presente pregunta llega a esta distinción: ¿qué se puede decir acerca de la probabilidad de ese resultado aleatorio ("futuro")? Por lo tanto, parece inadecuado, y posiblemente engañoso, tratar esta pregunta como una meramente sobre el significado de la confianza.
whuber

@whuber La declaración (2) en la publicación aún no implica la declaración (1). Como en mi ejemplo, una predicción que iba en contra de la intuición / conocimiento de fondo obvio no implicaría que los resultados futuros tengan un 95% de posibilidades de caer en el IP. Es cierto que el proceso, el 95% del tiempo, daría IP que contienen el resultado futuro. Pero a veces es posible detectar cuándo esto ha sucedido o no.

Tienes razón, pero si estoy leyendo tu comentario correctamente, sospecho que se pierde el punto. El problema no es el hecho de que (por diseño) un IP tiene solo un 95% de posibilidades de cubrir el valor futuro o que los datos adicionales (o intuición) puedan proporcionar más información. El asunto que tenemos ante nosotros se refiere a si un IP puede interpretarse en términos de una probabilidad condicional para el valor futuro (basado en los valores de regresión). De hecho, esa es la interpretación de un IP de Bayes , como señala el OP, pero no es válido para un IP frecuente.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.