¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión logística?
¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión logística?
Respuestas:
Sí, puede sobreajustar modelos de regresión logística. Pero primero, me gustaría abordar el punto sobre las AUC (Área bajo la curva de características operativas del receptor): no existen reglas generales universales con las AUC, nunca jamás.
El AUC es la probabilidad de que un positivo (o caso) muestreado aleatoriamente tenga un valor de marcador más alto que un negativo (o control) porque el AUC es matemáticamente equivalente al estadístico U.
Lo que el AUC no es es una medida estandarizada de precisión predictiva. Los eventos altamente deterministas pueden tener AUC de predictor único de 95% o más (como en mecatrónica controlada, robótica u óptica), algunos modelos complejos de predicción de riesgo logístico multivariable tienen AUC de 64% o menos, como la predicción de riesgo de cáncer de mama, y esos son respetablemente altos niveles de precisión predictiva.
Un valor AUC sensible, como con un análisis de potencia, se especifica previamente mediante la recopilación de conocimientos sobre los antecedentes y los objetivos de un estudio a priori . El médico / ingeniero describe lo que quieren y usted, el estadístico, resuelve un valor de AUC objetivo para su modelo predictivo. Entonces comienza la investigación.
De hecho, es posible sobreajustar un modelo de regresión logística. Además de la dependencia lineal (si la matriz modelo es de rango deficiente), también puede tener una concordancia perfecta, o esa es la gráfica de los valores ajustados contra Y discrimina perfectamente los casos y controles. En ese caso, sus parámetros no han convergido, sino que simplemente residen en algún lugar del espacio límite que da una probabilidad de . A veces, sin embargo, el AUC es 1 por casualidad al azar solo.
Hay otro tipo de sesgo que surge al agregar demasiados predictores al modelo, y ese es un sesgo de muestra pequeño. En general, los log odds ratios de un modelo de regresión logística tienden hacia un factor sesgado de debido a la no colapsabilidad del odds ratio y cero recuentos de células. En inferencia, esto se maneja utilizando regresión logística condicional para controlar las variables de confusión y precisión en análisis estratificados. Sin embargo, en predicción, eres SooL. No hay predicción generalizable cuando tienes p ≫ n π ( 1 - π ) , ( π = Prob ( Y = 1 )) porque tiene la garantía de haber modelado los "datos" y no la "tendencia" en ese momento. La predicción de alta dimensión (gran ) de los resultados binarios se realiza mejor con métodos de aprendizaje automático. Entender el análisis discriminante lineal, los mínimos cuadrados parciales, la predicción del vecino más cercano, el aumento y los bosques aleatorios sería un buen lugar para comenzar.
En palabras simples ... un modelo de regresión logística sobreajustado tiene una gran varianza, lo que significa que los límites de la decisión cambian en gran medida por pequeños cambios en magnitud variable. considere la siguiente imagen, la más adecuada es el modelo logístico sobreajustado, su límite de decisión tiene un gran no. de altibajos, mientras que el middel one está en forma, tiene una varianza moderada y un sesgo moderado. el izquierdo no está equipado, tiene un alto sesgo pero muy poca variación. Una cosa más: un modelo de regresión sobreajustado tiene demasiadas características, mientras que el modelo de ajuste inferior tiene menos. de características.
Puede sobreajustar con cualquier método, incluso si se ajusta a toda la población (si la población es finita). Hay dos soluciones generales al problema: (1) estimación penalizada de máxima verosimilitud (regresión de cresta, red elástica, lazo, etc.) y (2) el uso de antecedentes informativos con un modelo bayesiano.
¿Existe algún modelo, dejando de lado la regresión logística, que no es posible sobreajustar?
El sobreajuste surge fundamentalmente porque se ajusta a una muestra y no a toda la población. Los artefactos de su muestra pueden parecer características de la población y no lo son y, por lo tanto, duele demasiado.
Es similar a una cuestión de validez externa. Usando solo la muestra, está tratando de obtener un modelo que le brinde el mejor rendimiento en la población real que no puede ver.
Claro, algunos modelos de formas o procedimientos tienen más probabilidades de sobreajustarse que otros, pero ningún modelo es realmente inmune al sobreajuste, ¿verdad?
Incluso la validación fuera de la muestra, los procedimientos de regularización, etc., solo pueden proteger contra el sobreajuste, pero no hay una bala de plata. De hecho, si se estimara la confianza de uno mismo para hacer una predicción del mundo real basada en un modelo ajustado, siempre se debe suponer que ha ocurrido cierto grado de sobreajuste.
Hasta qué punto puede variar, pero incluso un modelo validado en un conjunto de datos de espera rara vez producirá un rendimiento in situ que coincida con lo obtenido en el conjunto de datos de espera. Y el sobreajuste es un gran factor causal.
Lo que hacemos con el Roc para verificar el sobreajuste es separar el conjunto de datos al azar en el entrenamiento y la valoración y comparar el AUC entre esos grupos. Si el AUC es "mucho" (tampoco existe una regla general) más grande en el entrenamiento, entonces podría haber un sobreajuste.