El rendimiento predictivo depende más de la experiencia del analista de datos que del método.

Me encontré con un rumor de que algunos estudios mostraron que el rendimiento de los modelos predictivos depende más de la experiencia del analista de datos con el método elegido que de la elección del método.
En otras palabras, la afirmación es que es más importante que el analista de datos esté familiarizado con el método elegido que cuán "apropiado" parecería el método para el problema desde un punto de vista más teórico.

Esto se mencionó en el contexto de la quimiometría, que generalmente involucra problemas de muchas variantes (100s - 1000s), colinealidad múltiple y, por supuesto, muy pocas muestras. La predicción puede haber sido clasificación o regresión.

Mi experiencia personal sugiere que esto es plausible , pero se mencionó un estudio (le pregunté a la persona que lo mencionó por correo electrónico después de una búsqueda rápida pero fallida, pero nunca recibí ninguna respuesta). Sin embargo, también con una búsqueda más elaborada, no pude localizar ningún documento.

¿Alguien está al tanto de tales hallazgos? Si no, ¿qué dice la experiencia personal de Big Guys aquí?

predictive-models method-comparison

— cbeleites apoya a Monica
fuente

Estoy más de un pequeño individuo por aquí, pero lo que he visto en Redes Neuronales apoya esta hipótesis: lejos de ser una herramienta de "fuera de la caja", donde "las máquinas aprende" algo, clasificación o predicción de éxito parece depender de una mucho sobre cuán inteligente es la persona que le dice a la red cómo aprender de los datos, lo más importante en términos de preprocesamiento de datos, pero también en términos de arquitectura de red, etc.

— Stephan Kolassa

Creo que esa es la figura 2.4 de Los elementos del aprendizaje estadístico donde comparan a los vecinos más cercanos con métodos de tipo de regresión (y, por supuesto, también proporcionan múltiples puntos de comparación a lo largo del libro).

— StasK

@StasK: gracias por el recordatorio (lástima por no recordarlo). También informan que, en la práctica, la PCR, PLS y la regresión de crestas son muy similares, y la LDA y la regresión logística también. Sin embargo, los últimos métodos también son muy similares desde un punto de vista teórico.

— cbeleites apoya a Monica

En realidad, escuché el rumor de que las máquinas de aprendizaje decentes suelen ser mejores que los expertos, porque la inclinación humana es minimizar la variación a expensas del sesgo (exceso de suavidad), lo que conduce a un pobre rendimiento predictivo en un nuevo conjunto de datos. La máquina está calibrada para minimizar el MSE y, por lo tanto, tiende a funcionar mejor en términos de predicción en un nuevo conjunto de datos .

— invitado47
fuente

En mi experiencia, es cierto que los humanos tienden a sobreajustar. Sin embargo, en mi experiencia, también necesita un experto decente que elija la máquina de aprendizaje que no sea demasiado adecuada. De lo contrario, alguien simplemente elige una máquina de aprendizaje que se adapte en exceso.

— cbeleites apoya a Monica el

MSE en general no protege contra el sobreajuste a menos que restrinja mucho el modelo, y allí entra el experto nuevamente. Sin embargo, las personas intentan optimizar, por ejemplo, los hiperparámetros del modelo. Sobreajuste de estrategias de optimización particularmente iterativas (MSE o no), a menos que pueda permitirse un conjunto completamente nuevo de datos de prueba independientes para cada iteración. Tal vez debería decir que vengo de un campo donde los casos de prueba son muy raros. Y, en cualquier caso, puede argumentar que esta no es una máquina de aprendizaje decente .

— cbeleites apoya a Monica el