Modelos flexibles e inflexibles en el aprendizaje automático.


10

Encontré una pregunta simple sobre la comparación de modelos flexibles (es decir, splines) frente a modelos inflexibles (por ejemplo, regresión lineal) en diferentes escenarios. La pregunta es:

En general, ¿esperamos que el rendimiento de un método de aprendizaje estadístico flexible funcione mejor o peor que un método inflexible cuando:

  1. ¿El número de predictores es extremadamente grande y el número de observaciones es pequeño? pn
  2. La varianza de los términos de error, es decir, σ2=Var(e) , ¿es extremadamente alta?

Creo que para (1), cuando n es pequeño, los modelos inflexibles son mejores (no estoy seguro). Para (2), no sé qué modelo es (relativamente) mejor.


El error de generalización está lejos de ser trivial. Lamentablemente, las reglas generales no ayudan mucho a este respecto.
Marc Claesen

8
Parece que esto es de James, Witten, Hastie, Introducción de Tibshirani al aprendizaje estadístico
Noel Evans

1. Un método flexible sobreajustaría el pequeño número de observaciones. 2. Un método flexible se ajusta al ruido en los términos de error y aumenta la varianza.
Zanark

Respuestas:


3

En estas 2 situaciones, el rendimiento comparativo del modelo flexible frente al inflexible también depende de:

  • es la relación verdadera y = f (x) cercana a lineal o muy no lineal;
  • ¿ajusta / restringe el grado de flexibilidad del modelo "flexible" cuando lo ajusta?

Si la relación es cercana a lineal y no restringe la flexibilidad, entonces el modelo lineal debería dar un mejor error de prueba en ambos casos porque el modelo flexible probablemente se sobreajuste en ambos casos.

Puedes verlo así:

  • En ambos casos, los datos no contienen suficiente información sobre la relación verdadera (en el primer caso, la relación es de alta dimensión y no tiene suficientes datos, en el segundo caso se corrompe por el ruido) pero
    • El modelo lineal aporta información previa externa sobre la relación verdadera (restringir la clase de relaciones ajustadas a las lineales) y
    • esa información previa resulta ser correcta (la relación verdadera es cercana a la lineal).
  • Si bien el modelo flexible no contiene información previa (puede adaptarse a cualquier cosa), por lo que se ajusta al ruido.

Sin embargo, si la verdadera relación es muy no lineal, es difícil decir quién ganará (ambos perderán :)).

Si ajusta / restringe el grado de flexibilidad y lo hace de la manera correcta (por ejemplo, mediante validación cruzada), entonces el modelo flexible debería ganar en todos los casos.


4

Por supuesto, depende de los datos subyacentes que siempre debe explorar para descubrir algunas de sus características antes de intentar ajustar un modelo, pero lo que he aprendido como reglas generales son:

  • Un modelo flexible le permite aprovechar al máximo un gran tamaño de muestra (n grande).
  • Será necesario un modelo flexible para encontrar el efecto no lineal.
  • Un modelo flexible hará que se ajuste demasiado al ruido en el problema (cuando la varianza de los términos de error es alta).

1

Bueno, para la segunda parte, creo que un modelo más flexible intentará ajustarse al modelo y los datos de entrenamiento contienen un alto ruido, por lo que el modelo flexible también intentará aprender ese ruido y generará más errores de prueba. Conozco la fuente de esta pregunta, ya que también estoy leyendo el mismo libro :)


1

Para la primera parte, esperaría que el modelo inflexible funcione mejor con un número limitado de observaciones. Cuando n es muy pequeño, ambos modelos (ya sea flexible o inflexible) no arrojarían predicciones suficientemente buenas. Sin embargo, el modelo flexible tendería a sobreajustar los datos y funcionaría peor cuando se trata de un nuevo conjunto de pruebas.

Idealmente, recolectaría más observaciones para mejorar el ajuste, pero si ese no es el caso, usaría el modelo inflexible, tratando de minimizar un error de prueba con un nuevo conjunto de pruebas.


0

Para la segunda pregunta, creo que la respuesta es que ambos funcionarán por igual (suponiendo que esos errores sean irreductibles, es decir, este error). Se proporciona más información en Introducción al aprendizaje estadístico en la página 18 (tema: Por qué estimar ) donde el autor explica diciendoF

La precisión de como predicción de depende de dos cantidades, que llamaremos error reducible y error irreducible . En general, no será una estimación perfecta para , y esta inexactitud introducirá algún error. Este error es reducible porque potencialmente podemos mejorar la precisión de utilizando la técnica de aprendizaje estadístico más apropiada para estimar . Sin embargo, incluso si fuera posible formar una estimación perfecta para , de modo que nuestra respuesta estimada tomara la formaYYF^FF^F^FY^=F(X), ¡nuestra predicción aún tendría algún error! Esto se debe a que es también una función de , que, por definición, no puede predecirse utilizando . Por lo tanto, la variabilidad asociada con también afecta la precisión de nuestras predicciones. Esto se conoce como el error irreducible , porque no importa qué tan bien estimamos , no podemos reducir el error introducido por . YϵXϵFϵ


No entiendo esto
Michael R. Chernick

0

Para cada una de las partes (a) a (d), indique si i. o ii. es correcto y explica tu respuesta. En general, ¿esperamos que el rendimiento de un método de aprendizaje estadístico flexible funcione mejor o peor que un método inflexible cuando:

¿El tamaño de la muestra n es extremadamente grande y el número de predictores p es pequeño?

Mejor. Un método flexible se ajustará mejor a los datos y, con el gran tamaño de muestra, funcionaría mejor que un enfoque inflexible.

¿El número de predictores p es extremadamente grande y el número de observaciones n es pequeño?

Peor. Un método flexible sobreajustaría el pequeño número de observaciones.

¿La relación entre los predictores y la respuesta es altamente no lineal?

Mejor. Con más grados de libertad, un método flexible encajaría mejor que uno inflexible.

La varianza de los términos de error, es decir, σ2 = Var (ε), ¿es extremadamente alta?

Peor. Un método flexible encajaría con el ruido en los términos de error y aumentaría la varianza.

Tomado de aquí .

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.