De hecho, "predicción" y "estimación" a veces se usan indistintamente en la escritura no técnica y parecen funcionar de manera similar, pero existe una clara distinción entre ellas en el modelo estándar de un problema estadístico. Un estimador usa datos para adivinar un parámetro, mientras que un predictor usa los datos para adivinar algún valor aleatorio que no es parte del conjunto de datos. Para aquellos que no están familiarizados con el significado de "parámetro" y "valor aleatorio" en las estadísticas, a continuación se ofrece una explicación detallada.
En este modelo estándar, se supone que los datos constituyen una observación (posiblemente multivariada) de una variable aleatoria cuya distribución se sabe que solo se encuentra dentro de un conjunto definido de posibles distribuciones, los "estados de la naturaleza". Un estimador es un procedimiento matemático que asigna a cada valor posible de alguna propiedad de un estado de naturaleza , como su media . Así, una estimación es una conjetura sobre el verdadero estado de la naturaleza. Podemos determinar qué tan buena es una estimación comparando con .xX txt(x)θμ(θ)t(x)μ(θ)
Un predictor refiere a la observación independiente de otra variable aleatoria cuya distribución está relacionada con el verdadero estado de la naturaleza. Una predicción es una suposición sobre otro valor aleatorio. Podemos decirle lo bien que una predicción en particular sólo mediante la comparación de al valor realizado por . Esperamos que, en promedio, el acuerdo sea bueno (en el sentido de promediar todos los resultados posibles y simultáneamente sobre todos los valores posibles de ).p(x)Zp(x)Zx Z
Los mínimos cuadrados ordinarios proporcionan el ejemplo estándar. Los datos consisten en pares asocian los valores de la variable dependiente a los valores de la variable independiente. El estado de la naturaleza se especifica mediante tres parámetros , y : dice que cada es como un dibujo independiente de una distribución normal con media y desviación estándar . , y son parámetros (números) que se consideran fijos e invariables. El interés se centra en(xi,yi)yixiαβσyiα+βxiσαβσα (la intersección) y (la pendiente). La estimación OLS, escrita , es buena en el sentido de que tiende a estar cerca de y tiende a ser cerca de , no importa lo que los verdaderos (pero desconocidos) valores de y podrían ser .β(α^,β^)α^αβ^βαβ
La predicción de MCO consiste en observar un nuevo valor de la variable dependiente asociada con algún valor de la variable independiente. podría o no estar entre en el conjunto de datos; Eso es irrelevante. Una predicción intuitivamente buena es que es probable que este nuevo valor esté cerca de . Las mejores predicciones dicen cuán cerca podría estar el nuevo valor (se llaman intervalos de predicción ). Explican el hecho de que y son inciertos (porque dependen matemáticamente de los valores aleatoriosZ=Y(x)xxxiα^+β^xα^β^(yi) ), que no se conoce con certeza (y, por lo tanto, debe estimarse), así como el supuesto de que tiene una distribución normal con desviación estándar y media ( tenga en cuenta la ausencia de sombreros!).σY(x)σα+βx
Tenga en cuenta especialmente que esta predicción tiene dos fuentes separadas de incertidumbre: la incertidumbre en los datos conduce a la incertidumbre en la pendiente estimada, la intersección y la desviación estándar residual ( ); Además, existe incertidumbre sobre qué valor de ocurrirá. Esta incertidumbre adicional, porque es aleatoria, caracteriza las predicciones. Una predicción puede parecer una estimación (después de todo, estimaciones :-) e incluso puede tener la misma fórmula matemática ( veces puede ser lo mismo que(xi,yi)σY(x)Y(x)α^+β^x α+βxp(x)t(x)), pero vendrá con una mayor incertidumbre que la estimación.
Aquí, entonces, en el ejemplo de OLS, vemos claramente la distinción: una estimación adivina los parámetros (que son números fijos pero desconocidos), mientras que una predicción adivina el valor de una cantidad aleatoria. La fuente de confusión potencial es que la predicción generalmente se basa en los parámetros estimados e incluso podría tener la misma fórmula que un estimador.
En la práctica, puede distinguir los estimadores de los predictores de dos maneras:
propósito : un estimador busca conocer una propiedad del verdadero estado de la naturaleza, mientras que una predicción busca adivinar el resultado de una variable aleatoria; y
incertidumbre : un predictor generalmente tiene mayor incertidumbre que un estimador relacionado, debido a la incertidumbre adicional en el resultado de esa variable aleatoria. Por lo tanto, los predictores bien documentados y descritos generalmente vienen con bandas de incertidumbre (intervalos de predicción) que son más anchas que las bandas de incertidumbre de los estimadores, conocidas como intervalos de confianza. Un rasgo característico de los intervalos de predicción es que pueden (hipotéticamente) reducirse a medida que crece el conjunto de datos, pero no se reducirán a un ancho cero, la incertidumbre en el resultado aleatorio es "irreducible", mientras que los intervalos de confianza tenderán a reducirse. reducir a cero, lo que corresponde a nuestra intuición de que la precisión de una estimación puede ser arbitrariamente buena con cantidades suficientes de datos.
Al aplicar esto para evaluar la pérdida potencial de inversión, primero considere el propósito: ¿desea saber cuánto podría realmente perder con esta inversión (o esta canasta particular de inversiones) durante un período determinado, o realmente solo está adivinando cuál es la pérdida esperada (en un gran universo de inversiones, tal vez)? El primero es una predicción, el segundo una estimación. Entonces considere la incertidumbre. ¿Cómo cambiaría su respuesta si tuviera recursos casi infinitos para recopilar datos y realizar análisis? Si fuera muy preciso, probablemente esté estimando el rendimiento esperado de la inversión, mientras que si sigue siendo muy incierto acerca de la respuesta, está haciendo una predicción.
Por lo tanto, si aún no está seguro de con qué animal está tratando, pregúntele a su estimador / predictor: ¿qué tan equivocado es probable que sea y por qué? Mediante ambos criterios (1) y (2) sabrás lo que tienes.