En la rutina rpart () para crear modelos CART, usted especifica el parámetro de complejidad al que desea podar su árbol. He visto dos recomendaciones diferentes para elegir el parámetro de complejidad:
Elija el parámetro de complejidad asociado con el mínimo error posible de validación cruzada. Quick-R y HSAUR recomiendan este método .
Elija el parámetro de mayor complejidad cuyo error de validación cruzada estimado aún se encuentra dentro de un SE del mínimo error de validación cruzada posible. Esta es mi interpretación de la documentación del paquete, que dice: "Una buena elección de cp para la poda es a menudo el valor más a la izquierda para el cual la media se encuentra debajo de la línea horizontal" en referencia a este gráfico .
Las dos opciones de cp producen árboles bastante diferentes en mi conjunto de datos.
Parece que el primer método siempre producirá un árbol más complejo y potencialmente sobreajustado. ¿Existen otras ventajas, desventajas, recomendaciones en la literatura, etc. que debo tener en cuenta al decidir qué método usar? Puedo proporcionar más información sobre mi problema de modelado particular si eso fuera útil, pero estoy tratando de mantener esta pregunta lo suficientemente amplia como para que sea relevante para los demás.
party
paquete que utiliza pruebas de significación (generalmente no es algo que recomiendo, pero parece relevante aquí). Sin embargo, como siempre, la mejor prueba es la utilidad y el sentido; Esto es especialmente cierto si está interesado principalmente en la explicación.