Digamos que tenemos una muestra de dos poblaciones: A
y B
. Supongamos que estas poblaciones están formadas por individuos y elegimos describirlos en términos de características. Algunas de estas características son categóricas (por ejemplo, ¿conducen al trabajo?) Y otras son numéricas (por ejemplo, su altura). Llamemos a estas características: . Recopilamos cientos de estas características (p. Ej. N = 200), supongamos que son simples, sin errores ni ruidos en todos los individuos.
Presumimos que las dos poblaciones son diferentes. Nuestro objetivo es responder las siguientes dos preguntas:
- ¿Son realmente significativamente diferentes?
- ¿Qué es significativamente diferente entre ellos?
Los métodos como los árboles de decisión (por ejemplo, bosques aleatorios) y el análisis de regresión lineal pueden ayudar. Por ejemplo, se podría observar la importancia de las características en bosques aleatorios o los coeficientes ajustados en la regresión lineal para comprender qué puede distinguir a estos grupos y explorar las relaciones entre las características y las poblaciones.
Antes de seguir esta ruta, quiero tener una idea de mis opciones aquí, lo que es bueno y lo moderno versus las malas prácticas. Tenga en cuenta que mi objetivo no es la predicción per se, sino probar y encontrar diferencias significativas entre los grupos.
¿Cuáles son algunos enfoques de principios para abordar este problema?
Aquí hay algunas preocupaciones que tengo:
Los métodos como el análisis de regresión lineal pueden no responder completamente (2), ¿verdad? Por ejemplo, un solo ajuste puede ayudar a encontrar algunas diferencias, pero no todas las diferencias significativas. Por ejemplo, la multicolinealidad puede evitar que descubramos cómo todas las características varían entre los grupos (al menos en un solo ajuste). Por la misma razón, esperaría que ANOVA tampoco pueda proporcionar una respuesta completa a (2).
No está del todo claro cómo respondería un enfoque predictivo (1). Por ejemplo, ¿qué función de pérdida de clasificación / predicción debemos minimizar? ¿Y cómo probamos si los grupos son significativamente diferentes una vez que tenemos un ajuste? Finalmente, me preocupa que la respuesta a la que llegue (1) pueda depender del conjunto particular de modelos de clasificación que uso.