Ejecuté un modelo xgboost. No sé exactamente cómo interpretar la salida de xgb.importance
.
¿Cuál es el significado de ganancia, cobertura y frecuencia y cómo los interpretamos?
Además, ¿qué significa Split, RealCover y RealCover%? Tengo algunos parámetros extra aquí
¿Hay algún otro parámetro que pueda brindarme más información sobre las características importantes?
De la documentación de R, entiendo que Gain es algo similar a Ganancia de información y Frecuencia es la cantidad de veces que se usa una característica en todos los árboles. No tengo idea de qué es Cover.
Ejecuté el código de ejemplo proporcionado en el enlace (y también intenté hacer lo mismo en el problema en el que estoy trabajando), pero la definición dividida dada allí no coincidía con los números que calculé.
importance_matrix
Salida:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05