En Estadísticas, como en Minería de datos, comienzas con datos y un objetivo. En estadística hay mucho enfoque en la inferencia, es decir, responder preguntas a nivel de población usando una muestra. En la minería de datos, el enfoque suele ser la predicción: crea un modelo a partir de su muestra (datos de entrenamiento) para predecir los datos de la prueba.
El proceso en estadísticas es entonces:
Explore los datos usando resúmenes y gráficos: dependiendo de cómo los estadísticos manejen los datos, algunos serán más abiertos de mente, verán los datos desde todos los ángulos, mientras que otros (especialmente los científicos sociales) verán los datos a través de la lente del pregunta de interés (por ejemplo, trazar especialmente las variables de interés y no otras)
Elija una familia de modelos estadísticos apropiados (p. Ej., Regresión lineal para una Y continua, regresión logística para una Y binaria o Poisson para datos de conteo) y realice la selección del modelo
Estima el modelo final
Pruebe los supuestos del modelo para asegurarse de que se cumplan razonablemente (diferente de las pruebas de precisión predictiva en la minería de datos)
Use el modelo para inferencia: este es el paso principal que difiere de la minería de datos. La palabra "valor p" llega aquí ...
Eche un vistazo a cualquier libro de texto de estadísticas básicas y encontrará un capítulo sobre Análisis de datos exploratorios seguido de algunas distribuciones (que ayudarán a elegir modelos de aproximación razonables), luego inferencia (intervalos de confianza y pruebas de hipótesis) y modelos de regresión.
Te describí el clásico proceso estadístico. Sin embargo, tengo muchos problemas con eso. El enfoque en la inferencia ha dominado completamente los campos, mientras que la predicción (que es extremadamente importante y útil) ha sido casi descuidada. Además, si observa cómo los científicos sociales usan las estadísticas para inferencia, ¡encontrará que lo usan de manera muy diferente! Puedes ver más sobre esto aquí