Significado del eje y en el gráfico de dependencia parcial del bosque aleatorio

Estoy usando el RandomForestpaquete R y estoy confundido sobre cómo interpretar los valores del eje Y en sus gráficos de dependencia parcial. Los documentos de ayuda indican que la gráfica es una "representación gráfica del efecto marginal de una variable en la probabilidad de la clase". Sin embargo, todavía estoy confundido sobre qué representa exactamente el eje y.

En particular, ¿qué significan los valores negativos?
¿Qué significa tener una influencia negativa en la predicción precisa de la clase?
¿Y cuál es la característica más importante de estas cifras, es el valor máximo, la forma de la tendencia, etc.?
¿Puedes comparar las parcelas parciales con parcelas parciales de otras variables?
¿Cómo podrían compararse estos gráficos con las curvas de respuesta creadas en Maxent (un software de modelado de distribución)?

Algunos ejemplos de parcelas de dependencia parcial

r interpretation random-forest partial-plot

— jacobsap
fuente

Respondiendo estos dos primero:

En particular, ¿qué significan los valores negativos? ¿Qué significa tener una influencia negativa en la predicción precisa de la clase?

Si observa la definición de cómo se calcula la gráfica parcial en la documentación del paquete Random Forest , se dice que las gráficas muestran la contribución relativa logit de la variable en la probabilidad de clase desde la perspectiva del modelo. En otras palabras, los valores negativos (en el eje y) significan que la clase positiva es menos probable para ese valor de la variable independiente (eje x) según el modelo. Del mismo modo, los valores positivos significan que la clase positiva es más probable para ese valor de la variable independiente según el modelo. Claramente, cero no implica un impacto promedio en la probabilidad de clase según el modelo.

¿Y cuál es la característica más importante de estas cifras, es el valor máximo, la forma de la tendencia, etc.?

Existen muchos enfoques diferentes para determinar la importancia de la característica y el valor absoluto máximo es solo una medida simple. Por lo general, las personas observan la forma de las parcelas parciales para comprender lo que sugiere el modelo sobre la relación de las variables a las etiquetas de clase.

¿Puedes comparar las parcelas parciales con parcelas parciales de otras variables?

La respuesta a esto es menos blanco y negro. Puede ver el rango del eje y para cada gráfico; Si la dependencia parcial de una variable es cercana a cero para todo el rango de la variable, eso le indica que el modelo no tiene ninguna relación entre la variable y la etiqueta de clase. Volviendo a su pregunta, cuanto mayor sea el rango, mayor será la influencia general, por lo que en este sentido se pueden comparar.

No tengo experiencia con Maxent.

— Chris A.
fuente

Digamos que el modelo es para la clasificación de 2 clases, ¿cómo determinar qué clase es positiva y cuál es negativa?

— Kumar Vaibhav

Esa es una buena pregunta, tendrás que experimentar y ver. La documentación dice en la página 17 aquí que si yes un factor, entonces supone que es un problema de clasificación. Sin embargo, no dice qué factor asignará a la clase positiva o negativa. Espero que 1 o verdadero se asigne a la clase positiva y 0, -1 o falso se asigne a la clase negativa, pero no daría eso por sentado en R.

— Chris A.

hay un which.classargumento partialPloty su valor predeterminado es el primer nivel de factor y. Entonces, si el primer nivel yes el caso negativo, entonces partialPlotestará prediciendo los casos negativos, que podrían no ser lo que uno espera.

— qoheleth