Navaja de Occam obsoleta?

Vi los libros de Vapnik sobre aprendizaje estadístico ... Leí los primeros capítulos. De todos modos, lo que más me sorprendió fue que pensó que la navaja de afeitar de Occam era obsoleta.

Pensé que estaba relacionado con la situación en la que asumir una dimensión más alta mejora significativamente el ajuste.

¿Estoy entendido bien? ¿Es cierto que la navaja de afeitar de Occam ya no puede ser correcta como dijo Vapnik?

¿Hay algún argumento de que la navaja de afeitar de Occam no debe considerarse como la predeterminada?

Las oraciones exactas provienen del Prefacio a la Segunda Edición de La naturaleza del aprendizaje estadístico , que son:

Los años transcurridos desde la primera edición del libro también han cambiado la filosofía general en nuestra comprensión de la naturaleza del problema de inducción. Después de muchos experimentos exitosos con SVM, los investigadores se volvieron más decididos a criticar la filosofía clásica de generalización basada en el principio de la navaja de afeitar de Occam ".

Desearía que alguien pudiera explicar las críticas sobre la navaja de afeitar de Occam.

machine-learning svm

— KH Kim
fuente

Puede que no esté relacionado. Leer sobre la simplicidad no implica precisión, en Algunas cosas útiles que debe saber sobre el aprendizaje automático de Domingos.

— Simone

Podría ayudar si pudiera dar una referencia de página, por lo que el comentario de Vapnik puede verse en contexto.

— Dikran Marsupial

Agregué el extracto de la segunda edición de La naturaleza del aprendizaje estadístico a la pregunta.

— KH Kim

Depende de lo que consideres la "navaja de afeitar de Occam"; la formulación original es un mumbo-jumbo teológico poco claro, por lo que floreció en un montón de interpretaciones (a menudo incompatibles).

Vapnik critica la versión ultranaive diciendo más menos que un modelo con menor número de parámetros ajustados es mejor porque demasiados parámetros implican un sobreajuste, es decir, algo en la melodía de la paradoja de Runge .
Por supuesto, es falso en el aprendizaje automático porque la "codicia de la adaptación" no está limitada por los parámetros numéricos sino (a través de alguna heurística) por la precisión del modelo en los datos futuros.

¿Pero significa que el entrenamiento de ML está introduciendo la pluralidad sin necesidad? Personalmente, diría que no, principalmente debido a la segunda parte: los modelos de ML suelen ser mejores que las regresiones clásicas a mano, por lo que esta complejidad adicional vale la pena. Incluso si un humano puede reducirlo a una teoría más simple, esto casi siempre tiene un precio de supuestos adicionales, por lo que no es una comparación justa.