¿Se explica la maldición de dimensionalidad del aprendizaje automático?

14

Tengo problemas para entender la maldición de la dimensionalidad. Específicamente, lo encontré mientras hacía el scikit-learntutorial en python. ¿Alguien puede explicar lo siguiente de una manera más simple? Lo siento, he estado tratando de entender durante mucho tiempo y no puedo entender cómo se les ocurrió el cálculo de la cantidad de ejemplos de entrenamiento para lograr un estimador KNN eficiente.

Aquí está la explicación:

Para que un estimador sea efectivo, necesita que la distancia entre los puntos vecinos sea menor que algún valor d, que depende del problema. En una dimensión, esto requiere en promedio n ~ 1 / d puntos. En el contexto del ejemplo KNN anterior, si los datos se describen con solo una característica con valores que van de 0 a 1 y con n observaciones de entrenamiento, los nuevos datos no estarán más allá de 1 / n. Por lo tanto, la regla de decisión del vecino más cercano será eficiente tan pronto como 1 / n sea pequeña en comparación con la escala de variaciones de características entre clases.

Si el número de características es p, ahora necesita n ~ 1 / d ^ p puntos. Digamos que necesitamos 10 puntos en una dimensión: ahora se requieren 10 ^ p puntos en p dimensiones para pavimentar el espacio [0, 1]. A medida que p aumenta, el número de puntos de entrenamiento requeridos para un buen estimador crece exponencialmente.

enlace aquí

EDITAR: ¿también se ~supone que tilde ( ) representa aproximadamente en ese ejemplo? o el operador python tilde?

machine-learning

— Chowza
fuente

2

La tilde significa "proporcional a"

— reseter

@mbatchkarov Ja, gracias. aproximadamente y proporcional a las conclusiones son tan diferentes lol

11

Traduciendo ese párrafo:

Deje que haya un conjunto de características que describan un punto de datos. Tal vez estás mirando el clima. Ese conjunto de características puede incluir elementos como temperatura, humedad, hora del día, etc. Por lo tanto, cada punto de datos puede tener una característica (si solo está mirando la temperatura) o puede tener 2 características (si está mirando la temperatura y humedad) y así sucesivamente. Lo que dice este párrafo es que, según la cantidad de dimensiones que tienen sus datos (cuántas características tiene), más difícil es hacer un estimador. Esto se debe a que si simplemente tiene una característica de datos, o datos unidimensionales, cuando va a graficar estos datos, obtiene un gráfico lineal, e imaginando un gráfico lineal entre digamos 0-50 grados C, solo se necesita 50 puntos aleatorios antes de cada punto de datos son aproximadamente 1 grado desde cualquier otro punto de datos. Ahora deja' s piense en 2 dimensiones, hablando de humedad y temperatura, ahora es más difícil encontrar que d tal que todos los puntos estén dentro de las unidades "d" entre sí. Imagine que la temperatura todavía está entre 0-50 pero ahora la humedad también está entre 0-100%. ¿Cuántos puntos aleatorios se necesitan para obtener todos los puntos dentro de 1 o 2 entre sí? ¡Ahora son 100 * 50 o ~ 5,000! Ahora imagine 3 dimensiones, etc., etc. Comienza a necesitar muchos más puntos para asegurarse de que cada punto esté dentro de d de algún otro punto. Para facilitarle la vida, intente asumir que "d" es 1 y vea qué sucede. ¡Espero que ayude! ¿Cuántos puntos aleatorios se necesitan para obtener todos los puntos dentro de 1 o 2 entre sí? ¡Ahora son 100 * 50 o ~ 5,000! Ahora imagine 3 dimensiones, etc., etc. Comienza a necesitar muchos más puntos para asegurarse de que cada punto esté dentro de d de algún otro punto. Para facilitarle la vida, intente asumir que "d" es 1 y vea qué sucede. ¡Espero que ayude! ¿Cuántos puntos aleatorios se necesitan para obtener todos los puntos dentro de 1 o 2 entre sí? ¡Ahora son 100 * 50 o ~ 5,000! Ahora imagine 3 dimensiones, etc., etc. Comienza a necesitar muchos más puntos para asegurarse de que cada punto esté dentro de d de algún otro punto. Para facilitarle la vida, intente asumir que "d" es 1 y vea qué sucede. ¡Espero que ayude!

2

Esa es una buena explicación, pero ¿qué pasa con la ecuación que proporcionaron? En su ejemplo de 1 característica, donde quiero que el estimador esté a 1 grado de distancia (es decir, d = 1), entonces su ecuación n~1/dsignificaría que n necesita ser aproximadamente 1. Eso no tiene mucho sentido?

No, están diciendo que si la función tiene un rango de 0-1 (el mío tenía un rango de 0-50), entonces tendría 1 / d puntos de modo que cada uno fuera aproximadamente d del otro. Eso funciona para mi ejemplo, ya que necesitaría aproximadamente 50/1 puntos donde 1 es "d". Lo siento, es confuso escribir estas ecuaciones, pero creo que eso debería ayudar

12

matty-d ya ha proporcionado una muy buena respuesta, pero encontré otra respuesta que explica este problema igualmente, de un usuario de Quora Kevin Lacker:

Digamos que tiene una línea recta de 100 yardas de largo y dejó caer un centavo en algún lugar. No sería muy difícil de encontrar. Caminas a lo largo de la línea y te lleva dos minutos.

Ahora supongamos que tiene un cuadrado de 100 yardas a cada lado y dejó caer un centavo en algún lugar. Sería bastante difícil, como buscar en dos campos de fútbol unidos. Podría llevar días.

Ahora un cubo de 100 yardas de ancho. Eso es como buscar en un edificio de 30 pisos del tamaño de un estadio de fútbol. Ugh

La dificultad de buscar en el espacio se vuelve mucho más difícil a medida que tienes más dimensiones. Es posible que no se dé cuenta de forma intuitiva cuando solo se indica en fórmulas matemáticas, ya que todas tienen el mismo "ancho". Esa es la maldición de la dimensionalidad. Llega a tener un nombre porque no es intuitivo, útil y simple.

— chutsu
fuente

-1

Ese ejemplo puede dar una idea del problema, pero en realidad no es una prueba rigurosa en absoluto: ese es solo un ejemplo en el que se necesitan muchas muestras para obtener una cobertura espacial "buena". Podría haber (y de hecho, por ejemplo, hexágonos en 2D) coberturas mucho más eficientes que una cuadrícula regular ... (el área sofisticada de secuencias de baja discrepancia se dedica a esto) ... y probar que incluso con tales mejores revestimientos Todavía hay una maldición de dimensionalidad que es otra cuestión. En realidad, en ciertos espacios de función, incluso hay formas de sortear este aparente problema.

— Cuarzo
fuente