He leído las excelentes discusiones en el sitio sobre la interpretación de los intervalos de confianza y los intervalos de predicción, pero un concepto sigue siendo un poco desconcertante:
Considere el marco OLS y hemos obtenido el modelo ajustado . Se nos da una y se nos pide que predijamos su respuesta. Calculamos y, como beneficio adicional, también proporcionamos un intervalo de predicción del 95% alrededor de nuestra predicción, al igual que Obteniendo una fórmula para los límites de predicción en un modelo lineal . Llamemos a este intervalo de predicción PI. x*x*T β
Ahora, ¿cuál de las siguientes (o ninguna) es la interpretación correcta de PI?
- Para en particular, encuentra dentro de PI con un 95% de probabilidad. y ( x ∗ )
- Si se nos da una gran cantidad de s, este procedimiento para calcular los IP cubrirá las respuestas verdaderas el 95% del tiempo.
De la redacción de @gung en el intervalo de predicción de regresión lineal , parece que lo primero es cierto (aunque podría muy bien estar malinterpretando). La interpretación 1 me parece contradictoria (en el sentido de que estamos sacando conclusiones bayesianas del análisis frecuentista), pero si es correcto, ¿es porque estamos prediciendo la realización de una variable aleatoria frente a la estimación de un parámetro ?
(Editar) Pregunta adicional: Supongamos que sabemos cuál es la verdadera , es decir, el proceso que genera los datos, entonces ¿podríamos hablar sobre las probabilidades con respecto a cualquier predicción en particular, ya que solo estamos viendo ?ϵ
Mi último intento en esto: podemos "descomponer conceptualmente" (usando la palabra muy libremente) un intervalo de predicción en dos partes: (A) un intervalo de confianza alrededor de la respuesta media pronosticada, y (B) una colección de intervalos que son simplemente cuantiles rangos del término de error. (B) podemos hacer declaraciones probabilísticas, condicionadas al conocimiento de la media pronosticada verdadera, pero en su conjunto, solo podemos tratar los intervalos de predicción como IC frecuentes en torno a los valores pronosticados. ¿Es esto algo correcto?