El siguiente extracto es de Schwager's Hedge Fund Market Wizzards (mayo de 2012), una entrevista con el exitoso administrador de fondos de cobertura Jaffray Woodriff:
A la pregunta: "¿Cuáles son algunos de los peores errores que cometen las personas en la minería de datos?":
Muchas personas piensan que están bien porque usan datos dentro de la muestra para capacitación y datos fuera de la muestra para las pruebas. Luego clasifican los modelos en función de cómo se desempeñaron en los datos dentro de la muestra y eligen los mejores para probar en los datos fuera de la muestra. La tendencia humana es tomar los modelos que continúan funcionando bien en los datos fuera de la muestra y elegir esos modelos para el comercio. Ese tipo de proceso simplemente convierte los datos fuera de la muestra en parte de los datos de capacitación porque selecciona los modelos que mejor funcionaron en el período fuera de la muestra. Es uno de los errores más comunes que cometen las personas y una de las razones por las que la minería de datos, como se aplica típicamente, produce resultados terribles.
El entrevistador luego pregunta: "¿Qué deberías estar haciendo en su lugar?":
Puede buscar patrones en los que, en promedio, todos los modelos fuera de muestra continúen funcionando bien. Usted sabe que lo está haciendo bien si el promedio de los modelos fuera de muestra es un porcentaje significativo de la puntuación dentro de la muestra. En términos generales, realmente está llegando a algún lado si los resultados fuera de la muestra son más del 50 por ciento de la muestra. El modelo de negocio de QIM nunca hubiera funcionado si SAS e IBM estuvieran construyendo un excelente software de modelado predictivo.
Mis preguntas
¿Tiene esto algún sentido? ¿Qué quiere decir? ¿Tiene una pista, o tal vez incluso un nombre para el método propuesto y algunas referencias? ¿O este tipo encontró el santo grial que nadie más entiende? Incluso dice en esta entrevista que su método podría potencialmente revolucionar la ciencia ...