En el algoritmo de bosque aleatorio, Breiman (autor) construye una matriz de similitud de la siguiente manera:
Envíe todos los ejemplos de aprendizaje a cada árbol del bosque
Si dos ejemplos aterrizan en la misma hoja, incremente el elemento correspondiente en la matriz de similitud en 1
- Normalizar la matriz con el número de árboles.
Él dice:
Las proximidades entre los casos n y k forman una matriz {prox (n, k)}. Desde su definición, es fácil demostrar que esta matriz es simétrica, positiva definida y acotada arriba por 1, con los elementos diagonales iguales a 1. Se deduce que los valores 1-prox (n, k) son distancias al cuadrado en un Euclidiano espacio de dimensión no mayor que el número de casos. Fuente
En su implementación, usa sqrt (1-prox) , donde prox es una matriz de similitud, para convertirla en matriz de distancia. Supongo que tiene algo que ver con las "distancias cuadradas en un espacio euclidiano", citado anteriormente.
¿Alguien puede arrojar algo de luz sobre por qué se deduce que 1-prox son distancias cuadradas en un espacio euclidiano y por qué usa la raíz cuadrada para obtener la matriz de distancia?