Considere los siguientes tres fenómenos.
Paradoja de Stein: dados algunos datos de la distribución normal multivariada en , la media muestral no es un muy buen estimador de la media real. Se puede obtener una estimación con un error cuadrático medio menor si se reducen todas las coordenadas de la media muestral hacia cero [o hacia su media, o en realidad hacia cualquier valor, si entiendo correctamente].
NB: por lo general, la paradoja de Stein se formula considerando solo un único punto de datos de ; corríjame si esto es crucial y mi formulación anterior no es correcta.
Regresión de cresta: dada alguna variable dependiente algunas variables independientes , la regresión estándar tiende sobreajustar los datos y conducir a un bajo rendimiento fuera de la muestra. A menudo se puede reducir el sobreajuste reduciendo hacia cero: .
Efectos aleatorios en modelos multinivel / mixtos: dada alguna variable dependiente (por ejemplo, la altura del estudiante) que depende de algunos predictores categóricos (por ejemplo, identificación de la escuela y género del estudiante), a menudo se recomienda tratar algunos predictores como 'aleatorios', es decir, suponer que La altura media del alumno en cada escuela proviene de una distribución normal subyacente. Esto da como resultado una reducción de las estimaciones de la altura media por escuela hacia la media global.
Tengo la sensación de que todo esto son varios aspectos del mismo fenómeno de "contracción", pero no estoy seguro y ciertamente carecen de una buena intuición al respecto. Entonces, mi pregunta principal es: ¿existe realmente una profunda similitud entre estas tres cosas, o es solo una apariencia superficial? ¿Cuál es el tema común aquí? ¿Cuál es la intuición correcta al respecto?
Además, aquí hay algunas piezas de este rompecabezas que realmente no encajan para mí:
En la regresión de cresta, no se reduce uniformemente; la contracción de la cresta se relaciona realmente con la descomposición de valores singulares de , y las direcciones de baja varianza se reducen más (ver, por ejemplo, Los elementos del aprendizaje estadístico 3.4.1). Pero el estimador James-Stein simplemente toma la media de la muestra y la multiplica por un factor de escala. ¿Cómo encaja eso?
Actualización: vea el Estimador James-Stein con variaciones desiguales y, por ejemplo, aquí con respecto a las variaciones de los coeficientes .
La media de la muestra es óptima en las dimensiones inferiores a 3. ¿Significa que cuando solo hay uno o dos predictores en el modelo de regresión, la regresión de cresta siempre será peor que los mínimos cuadrados ordinarios? En realidad, ahora que lo pienso, no puedo imaginar una situación en 1D (es decir, regresión simple, no múltiple) donde la contracción de la cresta sería beneficiosa ...
Actualización: No. Vea ¿ En qué condiciones es la regresión de cresta capaz de proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?
Por otro lado, la media muestral siempre es subóptima en dimensiones superiores a 3. ¿Significa que con más de 3 predictores la regresión de cresta siempre es mejor que la MCO, incluso si todos los predictores no están correlacionados (ortogonales)? Por lo general, la regresión de cresta está motivada por la multicolinealidad y la necesidad de "estabilizar" el término .
Actualización: ¡Sí! Ver el mismo hilo que el anterior.
A menudo hay una discusión acalorada sobre si varios factores en ANOVA deben incluirse como efectos fijos o aleatorios. ¿No deberíamos, por la misma lógica, tratar siempre un factor como aleatorio si tiene más de dos niveles (o si hay más de dos factores? Ahora estoy confundido)?
Actualización: ?
Actualización: obtuve algunas respuestas excelentes, pero ninguna proporciona una imagen general suficiente, por lo que dejaré que la pregunta se "abra". Puedo prometer otorgar una recompensa de al menos 100 puntos a una nueva respuesta que superará las existentes. Principalmente busco una visión unificadora que pueda explicar cómo se manifiesta el fenómeno general de la contracción en estos diversos contextos y señalar las principales diferencias entre ellos.