La idea del análisis de datos adaptativo es que modifique su plan para analizar los datos a medida que aprenda más sobre ellos. En el caso del análisis exploratorio de datos (EDA), generalmente es una buena idea (a menudo busca patrones imprevistos en los datos), pero para un estudio confirmatorio, esto es ampliamente aceptado como un método de análisis muy defectuoso (a menos que todos los pasos están claramente definidos y adecuadamente planificados en avanzado).
Dicho esto, el análisis de datos adaptativos suele ser la cantidad de investigadores que realmente realizan sus análisis, para consternación de los estadísticos. Como tal, si uno pudiera hacer esto de una manera estadística válida, revolucionaría la práctica estadística.
El siguiente artículo de Science afirma haber encontrado un método para hacerlo (pido disculpas por el muro de pago, pero si estás en una universidad, es probable que tengas acceso): Dwork et al, 2015, The holdout reutilizable: preservar la validez en el análisis de datos adaptativo .
Personalmente, siempre he sido escéptico sobre los artículos de estadísticas publicados en Science , y este no es diferente. De hecho, después de leer el artículo dos veces, incluido el material complementario, no puedo entender (en absoluto) por qué los autores afirman que su método evita un ajuste excesivo.
Tengo entendido que tienen un conjunto de datos de reserva, que reutilizarán. Parecen afirmar que al "difuminar" la salida del análisis confirmatorio en el conjunto de datos de reserva, se evitará el sobreajuste (vale la pena señalar que el difuminado parece estar simplemente agregando ruido si la estadística calculada en los datos de entrenamiento está lo suficientemente lejos) de la estadística calculada en los datos de reserva ). Por lo que puedo decir, no hay una razón real por la que esto evite un ajuste excesivo.
¿Me equivoco con lo que proponen los autores? ¿Hay algún efecto sutil que estoy pasando por alto? ¿O ha respaldado Science la peor práctica estadística hasta la fecha?