Hablar de de los puntos en un hipercubo ' es un poco engañoso ya que un hipercubo contiene infinitos puntos. Hablemos de volumen en su lugar.99%
El volumen de un hipercubo es el producto de sus longitudes laterales. Para el hipercubo de la unidad de 50 dimensiones, obtenemosTotal volume=1×1×⋯×150 times=150=1.
Ahora, excluyamos los límites del hipercubo y observemos el ' interior ' (pongo esto entre comillas porque el término matemático interior tiene un significado muy diferente). Solo conservamos los puntos que satisfacen
¿Cuál es el volumen de este ' interior '? Bueno, el ' interior ' es nuevamente un hipercubo, y la longitud de cada lado es ( ... ayuda a imaginar esto en dos y tres dimensiones). Entonces el volumen esx=(x1,x2,…,x50)0.05<x1<0.95 and 0.05<x2<0.95 and … and 0.05<x50<0.95.
0.9 = 0.95 - 0.05 Volumen interior = 0.9 × 0.9 × ⋯ × 0.9 ⏟ 50 veces = 0.9 50 ≈ 0.005. 1 - 0.9 50 ≈ 0.995.0.9=0.95−0.05Interior volume=0.9×0.9×⋯×0.950 times=0.950≈0.005.
Concluya que el volumen del ' límite ' (definido como la unidad de hipercubo sin el ' interior ') es1−0.950≈0.995.
Esto muestra que el del volumen de un hipercubo de 50 dimensiones se concentra en su " límite ".99.5%
Seguimiento: Ignacio planteó una pregunta interesante sobre cómo se relaciona esto con la probabilidad. Aquí hay un ejemplo.
Supongamos que se le ocurrió un modelo (de aprendizaje automático) que predice los precios de la vivienda en base a 50 parámetros de entrada. Los 50 parámetros de entrada son independientes y están distribuidos uniformemente entre y .01
Digamos que su modelo funciona muy bien si ninguno de los parámetros de entrada es extremo: siempre que cada parámetro de entrada permanezca entre y , su modelo predice el precio de la vivienda casi a la perfección. Pero si uno o más parámetros de entrada son extremos (menores que o mayores que ), las predicciones de su modelo son absolutamente terribles.0.050.950.050.95
Cualquier parámetro de entrada dado es extremo con una probabilidad de solo . Claramente, este es un buen modelo, ¿verdad? ¡No! La probabilidad de que al menos uno de los parámetros sea extremo es
Entonces, en el de los casos, la predicción de su modelo es terrible.10%50 1 - 0.9 50 ≈ 0.995. 99,5 %501−0.950≈0.995.99.5%
Regla de oro: en altas dimensiones, las observaciones extremas son la regla y no la excepción.