¿Inferencia vs. estimación?


30

¿Cuáles son las diferencias entre "inferencia" y "estimación" en el contexto del aprendizaje automático ?

Como novato, siento que inferimos variables aleatorias y estimamos los parámetros del modelo. ¿Es correcto este entendimiento?

Si no es así, ¿cuáles son exactamente las diferencias y cuándo debo usar cuáles?

Además, ¿cuál es el sinónimo de "aprender"?


Encontré esta respuesta en Quora , y no estoy seguro de su corrección.
Sibbs Gambling

44
El aprendizaje automático es solo estadísticas automatizadas (en mi opinión), por lo que no estoy seguro de que las definiciones sean diferentes en las estadísticas en general
shadowtalker

55
La literatura estadística canónica hace una distinción clara y consistente entre inferir propiedades de un supuesto modelo subyacente (en un marco teórico de decisión) y predecir valores de variables aleatorias. La estimación es un tipo especial de inferencia. Estos pueden contrastarse con la exploración y, hasta cierto punto, la prueba de hipótesis. "Aprender", como verbo transitivo, no tiene un significado estadístico estándar.
whuber

@whuber, una sugerencia tonta: ¿una respuesta? ..
StasK

2
@StasK Sería, excepto que no aborda la pregunta, que pregunta sobre el aprendizaje automático en lugar de las estadísticas. Ofrecí ese comentario en un esfuerzo por proporcionar un poco de antecedentes para comprender y evaluar las respuestas de LD, especialmente porque algunas de esas respuestas parecen hacer distinciones no estándar entre inferencia, estimación y predicción.
whuber

Respuestas:


30

Se hace una inferencia estadística de toda la colección de conclusiones que se pueden extraer de un conjunto de datos dado y un modelo hipotético asociado, incluido el ajuste de dicho modelo. Para citar de Wikipedia ,

La inferencia es el acto o proceso de derivar conclusiones lógicas de premisas conocidas o supuestas como verdaderas.

y,

La inferencia estadística usa las matemáticas para sacar conclusiones en presencia de incertidumbre.

La estimación no es más que un aspecto de la inferencia donde uno sustituye parámetros desconocidos (asociados con el modelo hipotético que generó los datos) con soluciones óptimas basadas en los datos (y posiblemente información previa sobre esos parámetros). Siempre debe asociarse con una evaluación de la incertidumbre de las estimaciones reportadas, evaluación que es una parte integral de la inferencia.

La probabilidad máxima es una instancia de estimación, pero no cubre la totalidad de la inferencia. Por el contrario, el análisis bayesiano ofrece una máquina de inferencia completa.


44
+1 especialmente para "Siempre debe asociarse con una evaluación de la incertidumbre de las estimaciones informadas", que a menudo no se realiza en el aprendizaje automático y la "ciencia de datos". Simplemente el benchmarking contra un conjunto de datos conocido no es eso.
Momo

4

Si bien la estimación per se apunta a obtener valores de los parámetros desconocidos (por ejemplo, coeficientes en regresión logística o en el hiperplano de separación en máquinas de vectores de soporte), la inferencia estadística intenta adjuntar una medida de incertidumbre y / o una declaración de probabilidad a Los valores de los parámetros (errores estándar e intervalos de confianza). Si el modelo que asume el estadístico es aproximadamente correcto, siempre que los nuevos datos entrantes continúen cumpliendo con ese modelo, las declaraciones de incertidumbre pueden tener algo de verdad y proporcionar una medida de la frecuencia con la que cometerá errores al usar el modelo para tomar tus decisiones.

μσ2μσ2/n

Lo más cercano al aprendizaje automático es la validación cruzada cuando la muestra se divide en las partes de capacitación y validación, y este último dice efectivamente: "si los datos nuevos se parecen a los datos anteriores, pero no tienen ninguna relación con los datos que se utilizó para configurar mi modelo, entonces una medida realista de la tasa de error es tal y tal ". Se deriva completamente empíricamente al ejecutar el mismo modelo en los datos, en lugar de tratar de inferir las propiedades del modelo haciendo suposiciones estadísticas e involucrando resultados matemáticos como el CLT anterior. Podría decirse que esto es más honesto, pero ya que utiliza menos información y, por lo tanto, requiere tamaños de muestra más grandes. Además, supone implícitamente que el proceso no cambia,

Si bien la frase "inferir lo posterior" puede tener sentido (no soy bayesiano, realmente no puedo decir cuál es la terminología aceptada), no creo que haya mucho que ver con suposiciones en ese paso de inferencia. Todos los supuestos bayesianos son (1) en el anterior y (2) en el modelo asumido, y una vez que se configuran, el posterior sigue automáticamente (al menos en teoría a través del teorema de Bayes; los pasos prácticos pueden ser muy complicados, y Sipps Gambling ... disculpe, el muestreo de Gibbs puede ser un componente relativamente fácil de llegar a esa parte posterior). Si "inferir lo posterior" se refiere a (1) + (2), entonces es un sabor de inferencia estadística para mí. Si (1) y (2) se indican por separado, y luego "inferir lo posterior" es otra cosa, entonces no


2

Supongamos que tiene una muestra representativa de una población.

La inferencia es cuando usa esa muestra para estimar un modelo y declarar que los resultados pueden extenderse a toda la población, con cierta precisión. Hacer inferencia es hacer suposiciones sobre una población usando solo una muestra representativa.

La estimación es cuando elige un modelo que se ajusta a su muestra de datos y calcula con cierta precisión los parámetros de ese modelo. Se llama estimación porque nunca podrá calcular los valores verdaderos de los parámetros, ya que solo tiene una muestra de datos y no toda la población.


"La inferencia es cuando usa una muestra para estimar un modelo" (y por lo tanto para estimar sus parámetros). "La estimación es cuando calcula ... los parámetros del modelo". ¿Ves alguna diferencia?
nbro

2

Este es un intento de dar una respuesta a cualquier persona sin antecedentes en estadísticas. Para aquellos que estén interesados ​​en obtener más detalles, hay muchas referencias útiles ( como esta, por ejemplo ) sobre el tema.

Respuesta corta:

>

>

Respuesta larga:

El término "estimación" se usa a menudo para describir el proceso de encontrar una estimación para un valor desconocido, mientras que "inferencia" a menudo se refiere a la inferencia estadística, un proceso de descubrir distribuciones (o características) de variables aleatorias y usarlas para sacar conclusiones.

Piense en responder la pregunta de: ¿Qué altura tiene la persona promedio en mi país?

Si decide encontrar una estimación, puede caminar un par de días y medir a los extraños que se encuentran en la calle (crear una muestra) y luego calcular su estimación, por ejemplo, como el promedio de su muestra. ¡Acabas de hacer alguna estimación!

Por otro lado, es posible que desee encontrar más de una estimación, que sabe que es un número único y está destinado a estar equivocado. Podría intentar responder la pregunta con cierta confianza, como por ejemplo: estoy 99% seguro de que la altura promedio de una persona en mi país está entre 1.60 my 1.90 m.

Para hacer tal afirmación, necesitaría estimar la distribución de la altura de las personas que está conociendo y sacar sus conclusiones en base a este conocimiento, que es la base de la inferencia estadística.

Lo crucial a tener en cuenta (como se señala en la respuesta de Xi'an) es que encontrar un estimador es parte de la inferencia estadística.


1
"Qué tan alta será la próxima persona aleatoria" es una cuestión de predicción estadística en lugar de estimación. "¿Cuál es el rango del 95% medio de todas las personas" es una estimación (intervalo). Aunque las dos preguntas (y los métodos de solución) están estrechamente relacionados y suenan similares, son diferentes en algunos aspectos importantes, y también se responden de manera diferente. La diferencia surge de la aleatoriedad de la siguiente persona en la primera pregunta, que no está presente en la segunda pregunta.
whuber

Estoy de acuerdo en que los ejemplos no son ideales. Dada la naturaleza de la pregunta, estaba tratando de dar ejemplos con los que un no estadístico estaría muy familiarizado. Mi respuesta más directa a la "estimación" sería que implica ajustar los parámetros de un modelo estadístico, pero luego introduciría los términos "ajuste" y "modelo estadístico", los cuales requerirían una explicación. Al final del día, aunque una predicción como se describe en el ejemplo es prospectiva, todavía lo consideraría una estimación (puntual).
significado para el

Cambió el ejemplo para no contener una predicción.
significado para el

1

Bueno, hoy hay personas de diferentes disciplinas que hacen su carrera en el área de ML, y es probable que hablen dialectos ligeramente diferentes.

Sin embargo, independientemente de los términos que puedan usar, los conceptos detrás son distintos. Por lo tanto, es importante aclarar estos conceptos y luego traducir esos dialectos de la manera que prefiera.

P.ej.

En PRML por Bishop,

p(Ck|x)

Entonces parece que aquí Inference= Learning=Estimation

Pero en otro material, la inferencia puede diferir de la estimación, donde inferencesignifica predictionmientras que estimationsignifica el procedimiento de aprendizaje de los parámetros.


0

En el contexto del aprendizaje automático, la inferencia se refiere a un acto de descubrir configuraciones de variables latentes (ocultas) dadas sus observaciones. Esto también incluye determinar la distribución posterior de sus variables latentes. La estimación parece estar asociada con la "estimación puntual", que es determinar los parámetros de su modelo. Los ejemplos incluyen la estimación de máxima verosimilitud. En la maximización de expectativas (EM), en el paso E, haces inferencia. En el paso M, haces la estimación de parámetros.

Creo que escucho a la gente decir "inferir la distribución posterior" más que "estimar la distribución posterior". El último no se utiliza en la inferencia exacta habitual. Se utiliza, por ejemplo, en la propagación de expectativas o Bayes variacional, donde inferir un posterior exacto es intratable y se deben hacer suposiciones adicionales en el posterior. En este caso, el posterior inferido es aproximado. La gente puede decir "aproximar el posterior" o "estimar el posterior".

Todo esto es solo mi opinión. No es una regla


0

Quiero agregar a las respuestas de otros expandiéndome en la parte de "inferencia". En el contexto del aprendizaje automático, un aspecto interesante de la inferencia es la estimación de la incertidumbre. En general, es complicado con los algoritmos de ML: ¿cómo se coloca una desviación estándar en la etiqueta de clasificación que escupe una red neuronal o un árbol de decisión? En las estadísticas tradicionales, los supuestos de distribución nos permiten hacer cálculos matemáticos y descubrir cómo evaluar la incertidumbre en los parámetros. En ML, puede que no haya parámetros, ni suposiciones de distribución, ni ninguna.

Se han realizado algunos progresos en estos frentes, algunos de ellos muy recientes (más recientes que las respuestas actuales). Una opción es, como han mencionado otros, el análisis bayesiano donde su posterior le da estimaciones de incertidumbre. Los métodos de tipo Bootstrap son buenos. Stefan Wager y Susan Athey, en Stanford, tienen algo de trabajo de los últimos dos años para obtener inferencia para bosques aleatorios . De manera análoga, BART es un método de conjunto de árbol bayesiano que produce un posterior a partir del cual se puede extraer inferencia.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.