La pregunta está fechada pero creo que es muy importante. La mejor respuesta que puedo obtener es del libro de Joop J Hox (2010) "Técnicas y aplicaciones de análisis multinivel, segunda edición".
Suponga datos jerárquicos de dos niveles con variables explicativas en el nivel más bajo y variables explicativas en el nivel más alto. Luego, en la página 55, escribe:pq
Un modelo de regresión de nivel único ordinario para los mismos datos estimaría solo la intersección, la varianza de un error y las pendientes de regresión p + q. La superioridad del modelo de regresión multinivel es clara si consideramos que los datos están agrupados en grupos. Si tenemos 100 grupos, estimar un modelo de regresión múltiple ordinario en cada grupo por separado requiere estimar 100 × (1 intersección de regresión + 1 varianza residual + p pendientes de regresión) más posibles interacciones con las variables de nivel de grupo q. La regresión multinivel reemplaza la estimación de 100 intersecciones mediante la estimación de una intersección promedio más su varianza residual entre grupos, suponiendo una distribución normal para estos residuos. Así, El análisis de regresión multinivel reemplaza la estimación de 100 intersecciones separadas mediante la estimación de dos parámetros (la media y la varianza de las intersecciones), más un supuesto de normalidad. La misma simplificación se utiliza para las pendientes de regresión. En lugar de estimar 100 pendientes para la variable explicativa del género del alumno, estimamos la pendiente promedio junto con su varianza entre los grupos, y suponemos que la distribución de las pendientes es normal. Sin embargo, incluso con un número modesto de variables explicativas, el análisis de regresión multinivel implica un modelo complicado. En general, no queremos estimar el modelo completo, primero porque es probable que esto nos lleve a problemas computacionales, sino también porque es muy difícil interpretar un modelo tan complejo.
Eso es para la descripción. Ahora las páginas 29-30 responderán su pregunta con mayor precisión.
Las intersecciones y pendientes previstas para las 100 clases no son idénticas a los valores que obtendríamos si realizáramos 100 análisis de regresión ordinarios separados en cada una de las 100 clases, utilizando técnicas estándar de mínimos cuadrados ordinarios (MCO). Si tuviéramos que comparar los resultados de 100 análisis de regresión OLS separados con los valores obtenidos de un análisis de regresión multinivel, encontraríamos que los resultados de los análisis separados son más variables. Esto se debe a que las estimaciones multinivel de los coeficientes de regresión de las 100 clases están ponderadas. Se denominan estimaciones empíricas de Bayes (EB) o contracción: un promedio ponderado de la estimación OLS específica en cada clase y el coeficiente de regresión general, estimado para todas las clases similares.
Como resultado, los coeficientes de regresión se reducen hacia el coeficiente medio para todo el conjunto de datos. El peso de contracción depende de la fiabilidad del coeficiente estimado. Los coeficientes que se estiman con una precisión pequeña se reducen más que los coeficientes estimados con mucha precisión. La precisión de la estimación depende de dos factores: el tamaño de la muestra del grupo y la distancia entre la estimación basada en el grupo y la estimación general. Las estimaciones para grupos pequeños son menos confiables y se reducen más que las estimaciones para grupos grandes. En igualdad de condiciones, las estimaciones que están muy lejos de la estimación general se suponen menos confiables y se reducen más que las estimaciones que están cerca del promedio general. El método estadístico utilizado se llama estimación empírica de Bayes. Debido a este efecto de contracción, los estimadores empíricos de Bayes están sesgados. Sin embargo, generalmente son más precisos, una propiedad que a menudo es más útil que ser imparcial (ver Kendall, 1959).
Espero que sea satisfactorio.