Tengo dos poblaciones, una con N = 38.704 (número de observaciones) y otra con N = 1.313.662. Estos conjuntos de datos tienen ~ 25 variables, todas continuas. Tomé la media de cada uno en cada conjunto de datos y calculé el estadístico de prueba usando la fórmula
t = diferencia media / error estándar
El problema es el grado de libertad. Mediante la fórmula de df = N1 + N2-2 tendremos más libertad de la que la tabla puede manejar. ¿Alguna sugerencia sobre esto? Cómo verificar la estadística t aquí. Sé que la prueba t se usa para manipular muestras, pero ¿qué pasa si aplicamos esto en muestras grandes?