¿Cuál es la dimensión VC?
Como mencionó @CPerkins, la dimensión VC es una medida de la complejidad de un modelo. También se puede definir con respecto a la capacidad de destruir puntos de datos como, como mencionó, wikipedia lo hace.
El problema basico
- Queremos un modelo (por ejemplo, algún clasificador) que se generalice bien en datos no vistos .
- Estamos limitados a una cantidad específica de datos de muestra.
La siguiente imagen (tomada de aquí ) muestra algunos Modelos ( hasta ) de diferente complejidad (dimensión VC), mostrados aquí en el eje x y llamados .S k hS1Skh
Las imágenes muestran que una dimensión de VC más alta permite un menor riesgo empírico (el error que un modelo comete en los datos de la muestra), pero también introduce un intervalo de confianza más alto. Este intervalo puede verse como la confianza en la capacidad del modelo para generalizar.
Dimensión de VC baja (alto sesgo)
Si usamos un modelo de baja complejidad, introducimos algún tipo de suposición (sesgo) con respecto al conjunto de datos, por ejemplo, cuando usamos un clasificador lineal asumimos que los datos pueden describirse con un modelo lineal. Si este no es el caso, nuestro problema dado no puede resolverse mediante un modelo lineal, por ejemplo, porque el problema es de naturaleza no lineal. Terminaremos con un modelo de mal desempeño que no podrá aprender la estructura de los datos. Por lo tanto, debemos tratar de evitar introducir un sesgo fuerte.
Dimensión de VC alta (mayor intervalo de confianza)
En el otro lado del eje x, vemos modelos de mayor complejidad que podrían tener una capacidad tan grande que más bien memorizarán los datos en lugar de aprender su estructura subyacente general, es decir, los sobreajustes del modelo. Después de darnos cuenta de este problema, parece que debemos evitar los modelos complejos.
Esto puede parecer controvertido ya que no introduciremos un sesgo, es decir, que tenga una dimensión de VC baja, pero tampoco debería tener una dimensión de VC alta. Este problema tiene raíces profundas en la teoría del aprendizaje estadístico y se conoce como el sesgo-varianza-compensación . Lo que deberíamos hacer en esta situación es ser lo más complejo posible y lo más simplista posible, por lo tanto, al comparar dos modelos que terminen con el mismo error empírico, deberíamos usar el menos complejo.
Espero poder mostrarles que hay más detrás de la idea de la dimensión VC.