La inferencia predictiva no bayesiana (aparte del caso SLR) es un campo relativamente reciente. Bajo el título de "no bayesiano" podemos subdividir los enfoques en aquellos que son frecuentadores "clásicos" versus aquellos que están basados en "probabilidad".
Predicción Frecuentista Clásica
Como saben, el "estándar de oro" en el frecuentismo es lograr la cobertura nominal bajo muestreo repetido. Por ejemplo, queremos que una región de confianza del 95% contenga los parámetros verdaderos en el 95% de las muestras de la misma población subyacente. O, esperamos cometer errores de Tipo I y II en una prueba de hipótesis en promedio igual a y β . Finalmente, y más relacionado con esta pregunta, esperamos que nuestro intervalo de predicción del 95% contenga el siguiente punto de muestra el 95% del tiempo.αβ
Ahora, en general, he tenido problemas con la forma en que se presentan y enseñan los IP clásicos en la mayoría de los cursos de estadísticas, porque la tendencia abrumadora es interpretarlos como intervalos predictivos posteriores bayesianos, que definitivamente no lo son. ¡Lo más fundamental es que están hablando de diferentes probabilidades! Los bayesianos no reclaman el rendimiento de muestreo repetido de sus cantidades (de lo contrario, serían frecuentas). En segundo lugar, un IP bayesiano en realidad está logrando algo más similar en espíritu a un intervalo de tolerancia clásico que a un intervalo de predicción clásico.
Como referencia: los intervalos de tolerancia deben especificarse mediante dos probabilidades: la confianza y la cobertura. La confianza nos dice con qué frecuencia es correcta en muestras repetidas. La cobertura nos dice la medida de probabilidad mínima del intervalo bajo la distribución verdadera (a diferencia del IP, que da la medida de probabilidad esperada ... nuevamente bajo muestreo repetido). Esto es básicamente lo que el IP bayesiano está tratando de hacer también, pero sin ningún reclamo de muestreo repetido.
Por lo tanto, la lógica básica de la regresión lineal simple de estadísticas 101 es derivar las propiedades de muestreo repetido del IP bajo el supuesto de normalidad. Es el enfoque frecuentista + gaussiano que generalmente se considera "clásico" y se enseña en las clases de estadísticas de introducción. Esto se basa en la simplicidad de los cálculos resultantes (ver Wikipedia para una buena visión general).
Las distribuciones de probabilidad no gaussianas son generalmente problemáticas porque pueden carecer de cantidades fundamentales que se pueden invertir cuidadosamente para obtener un intervalo. Por lo tanto, no existe un método "exacto" para estas distribuciones, a menudo porque las propiedades del intervalo dependen de los parámetros subyacentes verdaderos.
Al reconocer esta incapacidad, surgió otra clase de predicción (y de inferencia y estimación) con el enfoque de probabilidad.
Inferencia basada en la probabilidad
Los enfoques basados en la probabilidad, como muchos conceptos estadísticos modernos, se remontan a Ronald Fisher. La idea básica de esta escuela es que, excepto en casos especiales, nuestras inferencias estadísticas están en un terreno lógicamente más débil que cuando se trata de inferencias de una distribución normal (cuyas estimaciones de parámetros son ortogonales ), donde podemos hacer declaraciones de probabilidad exactas. Desde este punto de vista de la inferencia, uno realmente debería evitar las declaraciones sobre la probabilidad, excepto en el caso exacto; de lo contrario, debería hacer declaraciones sobre la probabilidad y reconocer que no se conoce la probabilidad exacta de error (en un sentido frecuente).
Por lo tanto, podemos ver la probabilidad como algo similar a la probabilidad bayesiana, pero sin los requisitos de integrabilidad o la posible confusión con la probabilidad frecuentista. Su interpretación es completamente subjetiva ... aunque a menudo se recomienda una razón de probabilidad de 0.15 para la inferencia de un solo parámetro.
Sin embargo, a menudo no se ven documentos que explícitamente den "intervalos de probabilidad". ¿Por qué? Parece que esto es en gran medida una cuestión de sociología, ya que todos nos hemos acostumbrado a las declaraciones de confianza basadas en la probabilidad. En cambio, lo que a menudo ve es un autor que se refiere a un intervalo de confianza "aproximado" o "asintótico" de tal y tal. Estos intervalos se derivan en gran medida de los métodos de probabilidad, en los que confiamos en la distribución asintótica de Chi-cuadrado de la razón de probabilidad de la misma manera en que confiamos en la normalidad asintótica de la media de la muestra.
Con esta "solución" ahora podemos construir regiones de confianza "aproximadas" del 95% con casi tanta coherencia lógica como los bayesianos.
De CI a PI en el Marco de Probabilidad
El éxito y la facilidad del enfoque de probabilidad anterior condujo a ideas sobre cómo extenderlo a la predicción. Aquí se da un muy buen artículo de encuesta sobre esto (no reproduciré su excelente cobertura). Se remonta a David Hinkley a fines de la década de 1970 (ver JSTOR ), quien acuñó el término. Lo aplicó al perenne " Problema de predicción binomial de Pearson ". Resumiré la lógica básica.
yyy
Las reglas básicas para deshacerse de los parámetros "molestos" para obtener una probabilidad predictiva son las siguientes:
- μ , σ
- Si un parámetro es aleatorio (p. Ej., Otros datos no observados o "efectos aleatorios"), entonces los integra (como en el enfoque bayesiano).
La distinción entre un parámetro fijo y aleatorio es única para la inferencia de probabilidad, pero tiene conexiones con modelos de efectos mixtos, donde parece que los marcos bayesiano, frecuentista y de probabilidad chocan.
Esperemos que esto haya respondido a su pregunta sobre el área amplia de predicción "no bayesiana" (e inferencia para el caso). Dado que los hipervínculos pueden cambiar, también pondré un tapón para el libro "En toda probabilidad: modelado estadístico e inferencia usando la probabilidad", que analiza en profundidad el marco de probabilidad moderno, que incluye una buena cantidad de los problemas epistemológicos de probabilidad vs bayesiano versus frecuentista inferencia y predicción.
Referencias
- Intervalos de predicción: métodos no paramétricos . Wikipedia Consultado el 13/09/2015.
- Bjornstad, Jan F. Probabilidad predictiva: una revisión. Estadístico. Sci. 5 (1990), no. 2, 242--254. doi: 10.1214 / ss / 1177012175.
http://projecteuclid.org/euclid.ss/1177012175 .
- David Hinkley. Probabilidad predictiva . Los Anales de Estadísticas vol. 7, N ° 4 (julio de 1979), págs. 718-728 Publicado por: Instituto de Estadística Matemática URL estable: http://www.jstor.org/stable/2958920
- Yudi Pawitan. En toda probabilidad: modelado estadístico e inferencia usando probabilidad. Prensa de la Universidad de Oxford; 1 edición (30 de agosto de 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Especialmente los capítulos 5.5-5.9, 10 y 16.