En Kahneman y Deaton (2010) † , los autores escriben lo siguiente:
Esta regresión explica el 37% de la varianza, con un error cuadrático medio (RMSE) de 0.67852. Para eliminar los valores atípicos y los informes de ingresos inverosímiles, descartamos observaciones en las que el valor absoluto de la diferencia entre el ingreso logarítmico y su predicción excedía 2.5 veces el RMSE.
¿Es esta práctica común? ¿Cuál es la intuición detrás de hacerlo? Parece algo extraño definir un valor atípico basado en un modelo que puede no estar bien especificado en primer lugar. ¿No debería basarse la determinación de valores atípicos en algunos fundamentos teóricos de lo que constituye un valor plausible, en lugar de cuán bien su modelo predice los valores reales?
: Daniel Kahneman, Angus Deaton (2010): Los ingresos altos mejoran la evaluación de la vida pero no el bienestar emocional. Actas de la Academia Nacional de Ciencias, septiembre de 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107