1) ¿Por qué el daño causado por la introducción de sesgo es menor en comparación con la ganancia de variación?
No tiene que hacerlo, solo suele serlo. El valor de la compensación depende de la función de pérdida. Pero las cosas que nos importan en la vida real a menudo son similares al error al cuadrado (por ejemplo, nos preocupa más un gran error que dos errores de la mitad del tamaño).
Como contraejemplo, imagine que para las admisiones a la universidad reducimos un poco los puntajes del SAT de la gente hacia el SAT promedio para su demografía (como se define). Si se hace correctamente, esto reducirá la varianza y el error cuadrático medio de las estimaciones de (algún tipo de) habilidad de la persona al introducir sesgo. La mayoría de la gente en mi humilde opinión argumentaría que tal compensación es inaceptable.
2) ¿Por qué siempre funciona?
3) ¿Qué tiene de interesante 0 (el origen)? Claramente, podemos reducir el tamaño que deseemos (es decir, el estimador Stein), pero ¿funcionará tan bien como el origen?
Creo que esto se debe a que generalmente reducimos los coeficientes o efectuamos estimaciones. Hay razones para creer que la mayoría de los efectos no son grandes (ver, por ejemplo, la toma de Andrew Gelman ). Una forma de decirlo es que un mundo donde todo influye en todo con un fuerte efecto es un mundo violento e impredecible. Dado que nuestro mundo es lo suficientemente predecible como para permitirnos vivir vidas largas y construir civilizaciones semi-estables, se deduce que la mayoría de los efectos no son grandes.
Dado que la mayoría de los efectos no son grandes, es útil reducir erróneamente los pocos realmente grandes y al mismo tiempo reducir correctamente la carga de efectos insignificantes.
Creo que esto es solo una propiedad de nuestro mundo y que probablemente podría construir mundos autoconsistentes donde la contracción no sea práctica (muy probablemente al hacer que el error cuadrático medio sea una función de pérdida poco práctica). Simplemente no es el mundo en el que vivimos.
Por otro lado, cuando pensamos en la contracción como una distribución previa en el análisis bayesiano, hay casos en los que la contracción a 0 es activamente perjudicial en la práctica.
Un ejemplo es la escala de longitud en los procesos gaussianos (donde 0 es problemático), la recomendación en el manual de Stan es utilizar un previo que coloque un peso insignificante cerca de cero, es decir, "reducir" efectivamente los valores pequeños lejos de cero. Del mismo modo, los antecedentes recomendados para la dispersión en la distribución binomial negativa se reducen efectivamente de cero. Por último, pero no menos importante, cada vez que la distribución normal se parametriza con precisión (como en INLA), es útil utilizar gamma inversa u otras distribuciones anteriores que se reducen desde cero.
4) ¿Por qué varios esquemas de codificación universal prefieren un menor número de bits alrededor del origen? ¿Son estas hipótesis simplemente más probables?
PAG( i ) ≥ P( i + 1 )yo