(1) Existe una extensa literatura sobre por qué uno debería preferir modelos completos a modelos restringidos / parsimoniosos. Tengo entendido que hay pocas razones para preferir el modelo parsimonioso. Sin embargo, los modelos más grandes pueden no ser factibles para muchas aplicaciones clínicas.
(2) Hasta donde yo sé, los índices de Discriminación / Discriminación no se usan (? No deberían) como un parámetro de selección de modelo / variable. No están destinados a este uso y, como resultado, puede que no haya mucha literatura sobre por qué no deberían usarse para la construcción de modelos.
(3) Los modelos parsimoniosos pueden tener limitaciones que no son evidentes. Pueden estar peor calibrados que los modelos más grandes, la validez externa / interna puede verse reducida.
(4) El estadístico c puede no ser óptimo para evaluar modelos que predicen riesgos futuros o estratifican a los individuos en categorías de riesgo. En este contexto, la calibración es tan importante para la evaluación precisa del riesgo. Por ejemplo, un biomarcador con una razón de probabilidad de 3 puede tener poco efecto sobre la estadística, pero un nivel mayor podría cambiar el riesgo cardiovascular estimado de 10 años para un paciente individual del 8% al 24%
Cocinar NR; Uso y mal uso de la curva ROC en la literatura médica. Circulación. 115 2007: 928-935.
(5) Se sabe que la estadística / discriminación AUC / c es insensible a las variables predictoras significativas. Esto se discute en la referencia de Cook anterior y la fuerza motivadora detrás del desarrollo del índice de reclasificación neta. También discutido en Cook arriba.
(6) Los grandes conjuntos de datos aún pueden conducir a modelos más grandes de lo deseado si se utilizan métodos de selección de variables estándar. En los procedimientos de selección por pasos, a menudo se utiliza un valor de corte de p de 0,05. Pero no hay nada intrínseco en este valor que significa que debe elegir este valor. Con conjuntos de datos más pequeños, un valor p más grande (0.2) puede ser más apropiado, en conjuntos de datos más grandes puede ser apropiado un valor p más pequeño (se usó 0.01 para el conjunto de datos GUSTO I por este motivo).
(7) Si bien AIC se usa a menudo para la selección de modelos, y está mejor respaldado por la literatura, BIC puede ser una alternativa válida en conjuntos de datos más grandes. Para la selección del modelo BIC, el chi-cuadrado debe exceder log (n), por lo que dará como resultado modelos más pequeños en conjuntos de datos más grandes. (Mallow puede tener características similares)
(8) Pero si lo que desea es un máximo de 10 o 12 variables, la solución más fácil es algo así como bestglm
o leaps
paquetes se acaba de establecer el número máximo de variables que desee considerar.
(9) si solo desea una prueba que haga que los dos modelos se vean iguales, y no esté demasiado preocupado por los detalles, es probable que pueda comparar el AUC de los dos modelos. Algunos paquetes incluso le darán un valor p para la comparación. No parece aconsejable.
Ambler G (2002) Simplificando un modelo de pronóstico: un estudio de simulación basado en datos clínicos
Cook NR; Uso y mal uso de la curva ROC en la literatura médica. Circulación. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sobre criterios para evaluar modelos de riesgo absoluto. Biostat 6 2005: 227-239.
(10) Una vez que el modelo ha sido construido, los índices de estadísticas / decimación c pueden no ser el mejor enfoque para comparar modelos y tienen limitaciones bien documentadas. Es probable que las comparaciones también incluyan, como mínimo, la calibración y el índice de reclasificación.
Steyerber (2010) Evaluación del desempeño de los modelos de predicción: un marco para algunas medidas tradicionales y novedosas
(11) Puede ser una buena idea ir más allá y utilizar medidas analíticas de decisión.
Vickers AJ, Elkin EB. Análisis de curva de decisión: un método novedoso para evaluar modelos de predicción. Med Decis Making. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Uso de curvas de utilidad relativa para evaluar la predicción de riesgos. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Evaluación de marcadores y modelos de predicción de riesgos: descripción general de las relaciones entre el NRI y las medidas analíticas de decisión. Med Decis Making. 2013; 33: 490-501
--- Actualización --- Encuentro el artículo de Vickers el más interesante. Pero esto aún no ha sido ampliamente aceptado a pesar de muchos editoriales. Por lo tanto, puede no ser de mucha utilidad práctica. Los artículos de Cook y Steyerberg son mucho más prácticos.
A nadie le gusta la selección por pasos. Ciertamente no voy a abogar por ello. Podría enfatizar que la mayoría de las críticas de stepwise asumen EPV <50 y una elección entre un modelo completo o preespecificado y un modelo reducido. Si EPV> 50 y existe un compromiso con un modelo reducido, el análisis de costo-beneficio puede ser diferente.
El pensamiento débil detrás de la comparación de las estadísticas c es que pueden no ser diferentes y creo recordar que esta prueba tiene una potencia significativamente baja. Pero ahora no puedo encontrar la referencia, por lo que podría estar muy lejos de eso.