¿Habría un problema de selección de modelo si tuviéramos acceso a un oráculo que nos dio el error exacto de generalización?

Dejar $\mathcal{E(h)}$ una función que dada alguna hipótesis $h$ devuelve el error de generalización para ese fijo $h$ .

Estaba leyendo algunas notas sobre la selección del modelo y el error de generalización y decía:

"Si tuviéramos acceso a $\mathcal{E(h)}$ , tampoco habría problema de selección de modelo. Simplemente seleccionaríamos los larges $\mathcal{H}$ para encontrar un clasificador que minimice el error ".

No estaba seguro si apreciaba o entendía completamente esa declaración o si realmente estaba de acuerdo con la declaración. La razón es que, incluso si tuviéramos acceso a $\mathcal{E(h)}$ (que creo que significan un oráculo que toma $h$ y solo dice su verdadero error de generalización) Creo que aún sería problemático encontrar el modelo que tenga la hipótesis que generalice bien. La razón es, digamos que las clases modelo $\mathcal{H}$ es infinito (es decir, hay un conjunto infinito de modelos para elegir). Realmente no sabemos cuándo $\mathcal{E(h)}$ ha alcanzado su mínimo a menos que verifiquemos cada $\mathcal{H}$ eso es posible. es decir, incluso si tuviéramos algo así, no creo que el problema se elimine tan fácilmente porque, ¿cómo podemos estar seguros de haber encontrado realmente el mejor? $\mathcal{H}$ (en tiempo polinomial)? Básicamente, creo que la pregunta supone que tenemos un oráculo para determinar cuándo la generalización es mínima también. Además, como señalé, el algoritmo / máquina de torneado sugerido es decidible y no está en P (es decir, podría funcionar para siempre ...)

El principal problema / duda que tengo con esta pregunta es que incluso con un Oracle de este tipo, no estoy convencido de que la selección del modelo se haya trivializado, una respuesta que trata de abordar este problema específico, tiene mayores posibilidades de abordar mi pregunta mejor.

machine-learning model

— Pinocho
fuente

Básicamente, creo que la pregunta supone que tenemos un oráculo para determinar cuándo la generalización es mínima también.

Por supuesto, tener esto sería excelente. Tener un oráculo que nos dé el mejor modelo sería aún mejor. Sin embargo, parece malinterpretar la función del oráculo.

La tarea de la selección del modelo es elegir el mejor modelo de un conjunto dado. Hacemos esto eligiendo el modelo que creemos que tiene el mejor rendimiento de generalización. Sin un oráculo para decirnos $\mathcal{E}(h)$ nos vemos obligados a estimar el rendimiento de la generalización, digamos $\hat{\mathcal{E}}(h)$ .

Debido a que necesitamos elegir un modelo basado en su rendimiento de generalización estimado, no tenemos garantías de elegir el correcto. Esto es lo que hace que la selección del modelo sea difícil (y algo arbitraria). Si tuviéramos acceso al verdadero rendimiento de generalización, la selección del modelo sería trivial.

La razón es, digamos que las clases modelo $\mathcal{H}$ es infinito (es decir, hay un conjunto infinito de modelos para elegir).

Esta es una buena pregunta teórica, pero es algo tangencial al problema práctico, ya que normalmente se desea elegir el mejor modelo dentro de un conjunto finito de opciones.

Tiene razón en que un conjunto de modelos verdaderamente infinito generaría un problema indecidible sin hacer más suposiciones. En la práctica, sin embargo, algunos supuestos adicionales son razonables.

Es común y a menudo razonable suponer que la forma funcional de $\mathcal{E}(h)$ se comporta de cierta manera con respecto a los hiperparámetros de una clase de modelo dada (por ejemplo, convexa). Si tales suposiciones se mantienen, los hiperparámetros óptimos a nivel mundial podrían encontrarse en el tiempo polinomial.

— Marc Claesen
fuente

Creo que su respuesta es interesante, pero no entendí la siguiente afirmación que hace: "parece malinterpretar la función del oráculo". Simplemente declaras eso sin proporcionar una razón explícita de por qué piensas eso. Solo quiero comprender mejor este problema y creo que si amplía ese punto o lo aclara, sería bueno porque mi pregunta es tratar más de abordar el problema exacto de si hay un problema de selección de modelo o no. Sé que sería bueno tener un oráculo así, sin embargo, con él, sigo pensando que el problema de selección de modelo no es completamente trivial

— Pinocho

Por el comentario que hice. Incluso con tal oráculo, ¿cómo trivializamos exactamente el proceso de selección del modelo? Ese es el aspecto que aún no me queda claro o la parte de la que no estoy convencido. Me parece que, incluso si tuviéramos un oráculo así, todavía no puedo ver una manera de trivializar la selección de modelos sin tener una máquina de torneado que podría ir en un bucle infinito.

— Pinocho

o tal vez como dijiste, la razón por la que tengo problemas para entender esto es porque podría haber entendido mal el oráculo del que hablan las oraciones originales.

— Pinocho