¿Cuál es la diferencia entre estadística descriptiva e inferencial?


21

Comprendí que las estadísticas descriptivas describían cuantitativamente las características de una muestra de datos, mientras que las estadísticas inferenciales hacían inferencias sobre las poblaciones de las que se extrajeron las muestras.

Sin embargo, la página de wikipedia para estados de inferencia estadística :

En su mayor parte, la inferencia estadística hace proposiciones sobre las poblaciones, utilizando datos extraídos de la población de interés a través de alguna forma de muestreo aleatorio.

El "en su mayor parte" me ha hecho pensar que quizás no entiendo adecuadamente estos conceptos. ¿Existen ejemplos de estadísticas inferenciales que no hagan proposiciones sobre las poblaciones?


Estadísticas descriptivas: se arrojó una moneda diez veces y cayó cara seis veces. Inferencia estadística: la estimación de probabilidad máxima de la probabilidad de cara es , o, esta información es insuficiente para rechazar la hipótesis de que la moneda es una moneda justa. 0.6
Dilip Sarwate

2
Inferencia sin el concepto de "población": Suponga que sus datos son generados por algún mecanismo / regla aleatorio (parcialmente) desconocido. Los métodos inferenciales permiten evaluar las propiedades de este mecanismo en función de los datos. Ejemplo: desea verificar una fórmula electrofísica basada en resultados que se puedan medir solo aproximadamente o en condiciones imperfectas.
Michael M

1
@ Michael: Sí; o de hecho hacer que sus datos sean generados por un mecanismo aleatorio conocido: asignación aleatoria de tratamientos experimentales.
Scortchi - Restablece a Monica

Respuestas:


19

Viniendo de un fondo de ciencias del comportamiento, asocio esta terminología particularmente con los libros introductorios de estadísticas. En este contexto, la distinción es que:

  • Las estadísticas descriptivas son funciones de los datos de muestra que son intrínsecamente interesantes al describir alguna característica de los datos. Las estadísticas descriptivas clásicas incluyen media, min, max, desviación estándar, mediana, sesgo, curtosis.
  • Las estadísticas inferenciales son una función de los datos de la muestra que le ayudan a hacer una inferencia con respecto a una hipótesis sobre un parámetro de población. Las estadísticas inferenciales clásicas incluyen z, t, , relación F, etc.χ2

El punto importante es que cualquier estadística, inferencial o descriptiva, es una función de los datos de la muestra. Un parámetro es una función de la población, donde el término población es lo mismo que decir el proceso de generación de datos subyacente.

Desde esta perspectiva, el estado de una función dada de los datos como estadística descriptiva o inferencial depende del propósito para el que la esté utilizando.

Dicho esto, algunas estadísticas son claramente más útiles para describir características relevantes de los datos, y algunas son muy adecuadas para ayudar a la inferencia.

  • Estadísticas inferenciales: las estadísticas de prueba estándar como t y z, para un proceso de generación de datos dado, donde la hipótesis nula es falsa, el valor esperado está fuertemente influenciado por el tamaño de la muestra. La mayoría de los investigadores no verían estadísticas como la estimación de un parámetro poblacional de interés intrínseco.
  • Estadística descriptiva : en contraste, las estadísticas descriptivas estiman los parámetros de la población que son típicamente de interés intrínseco. Por ejemplo, la media muestral y la desviación estándar proporcionan estimaciones de los parámetros de población equivalentes. Incluso las estadísticas descriptivas como el mínimo y el máximo proporcionan información sobre parámetros de población equivalentes o similares, aunque, por supuesto, en este caso, se requiere mucha más atención. Además, muchas estadísticas descriptivas pueden estar sesgadas o, por lo demás, ser menos que los estimadores ideales. Sin embargo, todavía tienen alguna utilidad en la estimación de un parámetro poblacional de interés.

Desde esta perspectiva, las cosas importantes para entender son:

  • estadística : función de los datos de muestra
  • parámetro : función de la población (proceso de generación de datos)
  • estimador : función de los datos de muestra utilizados para proporcionar una estimación de un parámetro
  • inferencia : proceso de llegar a una conclusión sobre un parámetro

Por lo tanto, puede definir la distinción entre descriptiva e inferencial en función de la intención del investigador que utiliza la estadística, o puede definir una estadística en función de cómo se usa normalmente.


¿Cómo se justifica llamar estadísticas inferenciales de puntajes t o F (en lugar de, por ejemplo, pruebas t )?
jona

@jona El puntaje t es el "estadístico" que se usa en la prueba t, por lo tanto, uno podría describir el puntaje t como un estadístico inferencial cuando se usa como parte de dicho proceso inferencial. Supongo que he comenzado con el supuesto de que una estadística es una función de los datos. ¿Pero quizás se está refiriendo al punto en que a menudo pensamos en las estadísticas inferenciales como el conjunto más amplio de técnicas utilizadas para hacer inferencia?
Jeromy Anglim

Permítanme expresarlo de manera diferente: ¿no es una estadística t una descripción de una muestra, en lugar de una declaración inferencial (como un valor p)?
jona

Bueno, sí, una función de los datos es equivalente a una descripción de una muestra. Supongo que estaba pensando que tales estadísticas se usan en un proceso inferencial (por ejemplo, los investigadores relacionan el estadístico t con una distribución t para obtener un valor p y luego relacionan p con alfa para hacer una inferencia). A menudo he visto libros de texto usar estos ejemplos. Pero supongo que el valor p y la inferencia binaria en sí misma podrían verse como estadísticas (es decir, funciones de los datos de muestra). Y la inferencia binaria en sí misma podría verse como la más claramente alineada con la inferencia. ¿Es a eso a lo que te refieres?
Jeromy Anglim

1
Entonces, por ejemplo, usa los datos para llegar a t que está relacionado con una distribución, que le da p , que a su vez produce una inferencia binaria sobre un parámetro de población. Entonces, desde una perspectiva frecuentista, t, p y la inferencia binaria son variables aleatorias. Todos estuvieron involucrados en el proceso inferencial. No estoy seguro de cuáles son los pros y los contras de etiquetar todas o solo algunas estadísticas como inferenciales.
Jeromy Anglim

8

Una forma de inferencia se basa en la asignación aleatoria de tratamientos experimentales, y no en el muestreo aleatorio de una población (incluso hipotéticamente). Oscar Kempthorne fue un defensor.

UNAsitt10/ /252=0,04

La predicción es otra área en la que no necesariamente se formulan proposiciones sobre poblaciones. (No sé si todos querrían llamar a la predicción "inferencia", pero está Geisser (1993), Inferencia predictiva: una introducción ). A menudo, la predicción se deriva de un modelo de población ajustado, pero no siempre; por ejemplo, el ejemplo de clasificación de @ Matt, el promedio de modelos (bayesiano o basado en pesos de Akaike) o algoritmos de pronóstico como el suavizado exponencial.

Nota: creo que "estadística inferencial versus estadística descriptiva" se refiere más a menudo a la estadística estadística, en lugar de a cantidades calculadas a partir de muestras. No hay diferencia esencial entre una estadística inferencial y una estadística descriptiva; como señaló @Jeremy, es una cuestión de qué uso le estás dando.


2

No estoy seguro de que la clasificación necesariamente haga una declaración sobre las poblaciones de las que se extraen los puntos de datos. La clasificación, como probablemente sepa, utiliza datos de entrenamiento que consisten en algunos vectores de "características", cada uno etiquetado con una clase específica, para predecir las etiquetas de clase que pertenecen a otros vectores de características sin etiquetar. Por ejemplo, podríamos usar los signos vitales de un paciente y el diagnóstico de un médico para predecir si otros pacientes están sanos o enfermos.

Algunos clasificadores, llamados "clasificadores generativos", intentan modelar explícitamente las poblaciones o el proceso de generación de datos que produce cada clase. Por ejemplo, el algoritmo Naive Bayes calculaPAGS(clase=doEl |caracteristicas) para cada clase do, suponiendo que las características sean todas independientes. Estos modelos podrían verse razonablemente como declaraciones sobre la población.

Sin embargo, otros clasificadores buscan diferencias entre las clases sin modelar las clases mismas; Estos se llaman clasificadores discriminativos. Un ejemplo clásico es el clasificador vecino más cercano, que asigna un ejemplo sin etiquetar a la clase de su vecino más cercano (donde cerrar se define de alguna manera sensata para el problema). No parece que contenga mucha información, si es que hay alguna, sobre las poblaciones de las que se extrajeron los puntos de datos.

Si está interesado en la diferencia entre estadística descriptiva e inferencial, podría ser más fructífero pensar en el propósito del análisis. Una estadística descriptiva, como la media, podría decirle cuántas truchas hay en un lago típico: describen algo. Una estadística inferencial, como unt-test, podría decirle si generalmente hay más truchas que bajos en estos lagos-- le permite hacer una afirmación sobre una estadística descriptiva.


0

En una línea, dados los datos, las estadísticas descriptivas intentan resumir el contenido de sus datos con una pérdida mínima de información (dependiendo de qué medida utilice). Puedes ver la geografía de los datos (algo así como ver el gráfico de rendimiento de la clase y decir quién está arriba, abajo, etc.)

En una línea, dados los datos, intenta estimar e inferir las propiedades de la población hipotética de la que provienen los datos. (Algo así como, comprender a los estudiantes de séptimo grado a través de la buena muestra de la clase, suponiendo que la población subyacente es lo suficientemente grande como para que no se puedan tener en cuenta en su totalidad)


3
No creo que sea una definición o caracterización de estadísticas descriptivas que apuntan a una pérdida mínima de información. Es completamente posible tener estadísticas descriptivas que omitan detalles realmente importantes y eso a menudo es un problema.
Nick Cox

0

En breve

Estadísticas descriptivas es el análisis de datos que describen, muestran o resumen datos de manera significativa; es simplemente una forma de describir nuestros datos / hablar sobre toda la población. algunos de ellos son medidas de tendencia central y medidas de dispersión

La estadística inferencial es una técnica que nos permite utilizar muestras para hacer generalizaciones sobre las poblaciones de las cuales se extrajeron las muestras.


0

estadística descriptiva es el análisis de datos que describen, muestran o resumen datos de manera significativa; es simplemente una forma de describir nuestros datos / hablar sobre toda la población. algunos de ellos son medidas de tendencia central y medidas de dispersión

La estadística inferencial es una técnica que nos permite utilizar muestras para hacer generalizaciones sobre las poblaciones de las que se extrajeron las muestras.


Bienvenido a Cross Validated ! Tómese un momento para ver nuestro recorrido . Parece que estabas a punto de terminar una buena respuesta, pero algo sucedió. siéntase libre de editar su respuesta para completar su pensamiento. También puede mejorar su respuesta agregando citas / referencias que colaboren con lo que ha puesto aquí. También debe responder la pregunta "¿Hay ejemplos de estadísticas inferenciales que no hagan proposiciones sobre las poblaciones?"
Tavrock
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.