Ok, entonces analicemos el ejemplo del niño que agrupa sus juguetes.
Imagine que el niño solo tiene 3 juguetes:
- un balón de fútbol azul
- un freesbe azul
- un cubo verde (bueno, tal vez no sea el juguete más divertido que puedas imaginar)
Hagamos la siguiente hipótesis inicial sobre cómo se puede hacer un juguete:
- Los colores posibles son: rojo, verde, azul.
- Las formas posibles son: círculo, cuadrado, triángulo
Ahora podemos tener (num_colors * num_shapes) = 3 * 3 = 9 grupos posibles.
El niño agruparía los juguetes de la siguiente manera:
- El GRUPO A) contiene la bola azul y el azul libre, porque tienen el mismo color y forma
- GRUPO B) contiene el cubo verde súper divertido
Usando solo estas 2 dimensiones (color, forma) tenemos 2 grupos no vacíos: en este primer caso, 7/9 ~ 77% de nuestro espacio está vacío.
Ahora aumentemos el número de dimensiones que el niño debe tener en cuenta. También hacemos la siguiente hipótesis sobre cómo se puede hacer un juguete:
- El tamaño del juguete puede variar entre unos pocos centímetros y un metro, en pasos de diez centímetros: 0-10 cm, 11-20 cm, ..., 91 cm-1 m
- El peso del juguete puede variar de manera similar hasta 1 kilogramo, con pasos de 100 gramos: 0-100g, 101-200g, ..., 901g-1kg.
Si queremos agrupar nuestros juguetes AHORA, tenemos (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 grupos posibles.
El niño agruparía los juguetes de la siguiente manera:
- GRUPO A) contiene el balón de fútbol azul porque es azul y pesado
- GRUPO B) contiene el azul libre porque es azul y claro
- CLUSTER C) contiene el cubo verde súper divertido
Usando las 4 dimensiones actuales (forma, color, tamaño, peso) solo 3 grupos no están vacíos: en este caso, 897/900 ~ 99.7% del espacio está vacío.
Este es un ejemplo de lo que encuentra en Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... cuando la dimensionalidad aumenta, el volumen del espacio aumenta tan rápido que los datos disponibles se vuelven escasos.
Editar: no estoy seguro de poder explicarle a un niño por qué la distancia a veces va mal en espacios de alta dimensión, pero tratemos de continuar con nuestro ejemplo del niño y sus juguetes.
Considere solo las 2 primeras características {color, forma}, todos están de acuerdo en que la bola azul es más similar al azul libre que al cubo verde.
Ahora agreguemos otras 98 características {digamos: tamaño, peso, día_de_producción_del_juguete, material, suavidad, día_en_que_el_todo_fue_comprado_por_daddy, precio, etc.}: bueno, para mí sería cada vez más difícil juzgar qué juguete es similar a cuál.
Entonces:
- Una gran cantidad de características pueden ser irrelevantes en una cierta comparación de similitud, lo que lleva a una corrupción de la relación señal / ruido.
- En grandes dimensiones, todos los ejemplos son "parecidos".
Si me escuchas, una buena conferencia es "Algunas cosas útiles que debes saber sobre el aprendizaje automático" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), el párrafo 6 en particular presenta esto tipo de razonamiento
¡Espero que esto ayude!