¿Qué se entiende por proximidad en bosques aleatorios?

11

Encontré el término proximidad en bosques al azar. Pero no podía entender lo que hace en bosques al azar. ¿Cómo ayuda para fines de clasificación?

machine-learning random-forest

— usuario3796494
fuente

12

El término "proximidad" significa la "cercanía" o "cercanía" entre pares de casos.

Las proximidades se calculan para cada par de casos / observaciones / puntos de muestra. Si dos casos ocupan el mismo nodo terminal a través de un árbol, su proximidad aumenta en uno. Al final de la carrera de todos los árboles, las proximidades se normalizan dividiendo por el número de árboles. Las proximidades se utilizan para reemplazar datos faltantes, localizar valores atípicos y producir vistas iluminadas de baja dimensión de los datos.

Proximidades

Las proximidades originalmente formaron una matriz NxN. Después de que crezca un árbol, coloque todos los datos, tanto de entrenamiento como de OAB, abajo del árbol. Si los casos k y n están en el mismo nodo terminal, aumente su proximidad en uno. Al final, normalice las proximidades dividiendo por el número de árboles.

Los usuarios notaron que con grandes conjuntos de datos, no podían encajar una matriz NxN en la memoria rápida. Una modificación redujo el tamaño de memoria requerido a NxT donde T es el número de árboles en el bosque. Para acelerar el escalado intensivo de cómputo y el reemplazo iterativo del valor perdido, el usuario tiene la opción de retener solo las proximidades más grandes de cada caso.

Cuando está presente un conjunto de prueba, también se pueden calcular las proximidades de cada caso en el conjunto de prueba con cada caso en el conjunto de entrenamiento. La cantidad de computación adicional es moderada.

cita: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

— sinalpha
fuente

¿Qué significa "nrnn"? Estaba leyendo la página de Adele Cutler (o posiblemente Breiman, ya que no puedo decir quién está autorizando qué aquí) en RF, y no puedo encontrar dónde definen nrnn. (Puede muy bien ser un término de álgebra lineal con el que no estoy familiarizado.

— Tanner Strunk

nrnn = el número de vecinos más cercanos para los que se calculan las proximidades. Fuente: math.usu.edu/adele/RandomForests/ENAR.pdf página 161

— klumbard

0

Tenga en cuenta que los autores de Elementos de aprendizaje estadístico afirman que "Las parcelas de proximidad para bosques aleatorios a menudo se ven muy similares, independientemente de los datos, lo que arroja dudas sobre su utilidad. Tienden a tener una forma de estrella, un brazo por clase, que es más pronunciado cuanto mejor sea el rendimiento de clasificación ". (p 595)

Sin embargo, creo que estos autores no mencionan las formas en que los bosques aleatorios manejan tanto los datos faltantes (a pesar de que mencionan datos faltantes con árboles anteriormente en el libro); quizás los autores simplemente no destacaron tanto este aspecto de los RF, lo que tiene sentido teniendo en cuenta que el libro es enorme y tiene mucha información sobre muchos temas / técnicas de aprendizaje automático. Sin embargo, no creo que tener las gráficas den formas similares para cualquier RF y conjunto de datos significa algo negativo sobre las RF en general. Por ejemplo, la regresión lineal básicamente siempre se ve igual, pero vale la pena saber qué puntos se encuentran cerca de la línea y cuáles parecen ser atípicos desde la perspectiva de la regresión lineal. Entonces ... su comentario sobre la utilidad de las tramas de proximidad no tiene sentido para mí.

— Tanner Strunk
fuente