En general, la maldición de la dimensionalidad hace que el problema de buscar en un espacio sea mucho más difícil y afecta a la mayoría de los algoritmos que "aprenden" a través de la división de su espacio vectorial. Cuanto mayor sea la dimensionalidad de nuestro problema de optimización, más datos necesitamos para llenar el espacio sobre el que estamos optimizando.
Modelos lineales generalizados
β^=(X′X)−1X′y
Árboles de
decisión Los árboles de decisión también sufren la maldición de la dimensionalidad. Los árboles de decisión dividen directamente el espacio muestral en cada nodo. A medida que aumenta el espacio muestral, aumenta la distancia entre los puntos de datos, lo que hace que sea mucho más difícil encontrar una división "buena".
Bosques al
azar Los bosques al azar usan una colección de árboles de decisión para hacer sus predicciones. Pero en lugar de usar todas las características de su problema, los árboles individuales solo usan un subconjunto de las características. Esto minimiza el espacio que cada árbol está optimizando y puede ayudar a combatir el problema de la maldición de la dimensionalidad.
Los
algoritmos de refuerzo de Boosted Tree , como AdaBoost, sufren la maldición de la dimensionalidad y tienden a sobreajustarse si no se utiliza la regularización. No profundizaré, porque la publicación ¿AdaBoost es menos o más propenso a sobreajustar?
explica la razón por qué mejor de lo que podría
Redes neuronales
Las redes neuronales son raras en el sentido de que ambas son y no son impactadas por la maldición de la dimensionalidad dependiente de la arquitectura, activaciones, profundidad, etc. Por lo tanto, para reiterar la maldición de la dimensionalidad es el problema que una gran cantidad de puntos son necesarios en alta dimensiones para cubrir un espacio de entrada. Una forma de interpretar redes neuronales profundas es pensar que todas las capas esperan que la última capa haga una proyección complicada de un múltiple de alta dimensión en un múltiple de menor dimensión, donde luego la última capa se clasifica en la parte superior. Entonces, por ejemplo, en una red convolucional para clasificación donde la última capa es una capa softmax, podemos interpretar que la arquitectura realiza una proyección no lineal en una dimensión más pequeña y luego realiza una regresión logística multinomial (la capa softmax) en esa proyección. Entonces, en cierto sentido, la representación comprimida de nuestros datos nos permite evitar la maldición de la dimensionalidad. Una vez más, esta es una interpretación, en realidad la maldición de la dimensionalidad impacta las redes neuronales, pero no al mismo nivel que los modelos descritos anteriormente.
SVM
SVM tiende a no sobreajustarse tanto como los modelos lineales generalizados debido a la regularización excesiva que ocurre. Echa un vistazo a esta publicación SVM, Overfitting, curse of dimensionality para más detalles.
K-NN, K-medias
Tanto K-mean como K-NN se ven muy afectados por la maldición de la dimensionalidad, ya que ambos usan la medida de la distancia al cuadrado L2. A medida que aumenta la cantidad de dimensiones, también aumenta la distancia entre varios puntos de datos. Es por eso que necesita una mayor cantidad de puntos para cubrir más espacio con la esperanza de que la distancia sea más descriptiva.
Siéntase libre de preguntar detalles sobre los modelos, ya que mis respuestas son bastante generales. Espero que esto ayude.