Sobreajustar un modelo de regresión logística

28

¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión logística?

logistic overfitting regression-strategies

— carlosedubarreto
fuente

1

¿Puedes decir qué video, o al menos dar un poco más de contexto?

— Glen_b: reinstala a Monica el

2

Claro @Glen_b, el video fue este: enlace El comentario fue a 40 minutos. Estaba diciendo eso: cuando ROC tenía el AUC entre 0,5 y 0,6 era pobre. Si entre 0,6 y 0,7 está por debajo del promedio. Si entre 0,7 y 0,75 es un promedio / Bueno. Entre 0,75 y 0,8 es bueno. Si entre 0,8 y 0,9 es excelente. Si es superior a 0,9 es sospechoso y si es superior a 0,95, está sobreajustado. He encontrado esa explicación muy fácil de entender, pero ¿es correcto? Porque estoy buscando algo para respaldar ese pensamiento pero no lo encuentro.

— carlosedubarreto

Y Glen_B, la explicación que dio @AdamO parece que la explicación que vi en el video no era exactamente correcta, pero tal vez he entendido mal la explicación de Adam. Estas cosas de Statiscs son muy complejas, pero es un verdadero placer profundizar en ellas. :)

— carlosedubarreto

Creo que la explicación de AdamO es buena (la he votado), pero se supone que las preguntas son recursos permanentes; un lector posterior (por ejemplo, alguien con una pregunta similar) puede querer el contexto de saber lo que se dijo. Creo que su descripción en el comentario brinda suficiente contexto para la mayoría de las personas y el enlace servirá para el resto. ¡Así que gracias! Has hecho tu pregunta más útil.

— Glen_b -Reinstate Monica

Muchas gracias @Glen_b, estoy aprendiendo cómo usar esta increíble herramienta que tenemos (este foro). Tendré en cuenta tu consejo cuando hagas nuevas preguntas.

— carlosedubarreto

36

Sí, puede sobreajustar modelos de regresión logística. Pero primero, me gustaría abordar el punto sobre las AUC (Área bajo la curva de características operativas del receptor): no existen reglas generales universales con las AUC, nunca jamás.

El AUC es la probabilidad de que un positivo (o caso) muestreado aleatoriamente tenga un valor de marcador más alto que un negativo (o control) porque el AUC es matemáticamente equivalente al estadístico U.

Lo que el AUC no es es una medida estandarizada de precisión predictiva. Los eventos altamente deterministas pueden tener AUC de predictor único de 95% o más (como en mecatrónica controlada, robótica u óptica), algunos modelos complejos de predicción de riesgo logístico multivariable tienen AUC de 64% o menos, como la predicción de riesgo de cáncer de mama, y esos son respetablemente altos niveles de precisión predictiva.

Un valor AUC sensible, como con un análisis de potencia, se especifica previamente mediante la recopilación de conocimientos sobre los antecedentes y los objetivos de un estudio a priori . El médico / ingeniero describe lo que quieren y usted, el estadístico, resuelve un valor de AUC objetivo para su modelo predictivo. Entonces comienza la investigación.

De hecho, es posible sobreajustar un modelo de regresión logística. Además de la dependencia lineal (si la matriz modelo es de rango deficiente), también puede tener una concordancia perfecta, o esa es la gráfica de los valores ajustados contra Y discrimina perfectamente los casos y controles. En ese caso, sus parámetros no han convergido, sino que simplemente residen en algún lugar del espacio límite que da una probabilidad de . A veces, sin embargo, el AUC es 1 por casualidad al azar solo. $\infty$

Hay otro tipo de sesgo que surge al agregar demasiados predictores al modelo, y ese es un sesgo de muestra pequeño. En general, los log odds ratios de un modelo de regresión logística tienden hacia un factor sesgado de debido a la no colapsabilidad del odds ratio y cero recuentos de células. En inferencia, esto se maneja utilizando regresión logística condicional para controlar las variables de confusión y precisión en análisis estratificados. Sin embargo, en predicción, eres SooL. No hay predicción generalizable cuando tienes , ( $2\beta$ $p \gg n \pi(1-\pi)$ $\pi = \mbox{Prob}(Y=1)$ ) porque tiene la garantía de haber modelado los "datos" y no la "tendencia" en ese momento. La predicción de alta dimensión (gran ) de los resultados binarios se realiza mejor con métodos de aprendizaje automático. Entender el análisis discriminante lineal, los mínimos cuadrados parciales, la predicción del vecino más cercano, el aumento y los bosques aleatorios sería un buen lugar para comenzar. $p$

— AdamO
fuente

Cuando dices

, supongo que te refieres a la proporción de tiempo que y = 1? ¿Y no la suma de la cantidad de veces que y = 1?

y

$y$

— generic_user

Eso fue confuso, p es el número de parámetros en el modelo, ahora uso

para la proporción. Gracias por señalar eso.

π

$\pi$

— AdamO

¿Cómo se determina el valor de AUC apropiado para apuntar?

— Kevin H. Lin

1

@ KevinH.Lin Depende de la naturaleza de la pregunta. Cuanto más incorpores conocimiento contextual apropiado, mejor. Esta sería la prevalencia o carga subyacente de enfermedad o afección que evalúa el modelo, el desempeño de los modelos existentes (competidores), las compensaciones de costo-efectividad y las políticas que rodean la adopción de nuevas prácticas y / o recomendaciones. No hay nada en blanco y negro, pero como muchas cosas, debe argumentar convincentemente para convencer y razonar a favor de un valor de AUC que usted, como estadístico, especifique previamente.

— AdamO

1

@ KevinH.Lin No creo que ninguna respuesta válida sea tan clara y concisa como la que parece querer. Es como preguntar: "¿Qué auto debo comprar?" :) Le sugiero que revise los artículos que han explorado las AUC en el área de investigación pertinente que le interese. He trabajado en gran medida en modelos de predicción de riesgo de cáncer de mama y, a través de los trabajos de Tice, Gail y Barlow, entre otros, he visto que un AUC de 0,65 es muy atractivo para los modelos de predicción basados en la población que tienen una prevalencia de menos de 1-20 casos incidentes. por cada 5,000 años-persona en riesgo usando 7 factores de riesgo que tienen RR btn 1.5 y 3.

— AdamO

6

En palabras simples ... un modelo de regresión logística sobreajustado tiene una gran varianza, lo que significa que los límites de la decisión cambian en gran medida por pequeños cambios en magnitud variable. considere la siguiente imagen, la más adecuada es el modelo logístico sobreajustado, su límite de decisión tiene un gran no. de altibajos, mientras que el middel one está en forma, tiene una varianza moderada y un sesgo moderado. el izquierdo no está equipado, tiene un alto sesgo pero muy poca variación. Una cosa más: un modelo de regresión sobreajustado tiene demasiadas características, mientras que el modelo de ajuste inferior tiene menos. de características.

— usuario110267
fuente

8

Agregue referencia para la imagen (en realidad, el curso de Andrew Ng).

— Alexander Rodin

5

Puede sobreajustar con cualquier método, incluso si se ajusta a toda la población (si la población es finita). Hay dos soluciones generales al problema: (1) estimación penalizada de máxima verosimilitud (regresión de cresta, red elástica, lazo, etc.) y (2) el uso de antecedentes informativos con un modelo bayesiano.

$Y$ $Y$ $Y$ $Y$

— Frank Harrell
fuente

4

¿Existe algún modelo, dejando de lado la regresión logística, que no es posible sobreajustar?

El sobreajuste surge fundamentalmente porque se ajusta a una muestra y no a toda la población. Los artefactos de su muestra pueden parecer características de la población y no lo son y, por lo tanto, duele demasiado.

Es similar a una cuestión de validez externa. Usando solo la muestra, está tratando de obtener un modelo que le brinde el mejor rendimiento en la población real que no puede ver.

Claro, algunos modelos de formas o procedimientos tienen más probabilidades de sobreajustarse que otros, pero ningún modelo es realmente inmune al sobreajuste, ¿verdad?

Incluso la validación fuera de la muestra, los procedimientos de regularización, etc., solo pueden proteger contra el sobreajuste, pero no hay una bala de plata. De hecho, si se estimara la confianza de uno mismo para hacer una predicción del mundo real basada en un modelo ajustado, siempre se debe suponer que ha ocurrido cierto grado de sobreajuste.

Hasta qué punto puede variar, pero incluso un modelo validado en un conjunto de datos de espera rara vez producirá un rendimiento in situ que coincida con lo obtenido en el conjunto de datos de espera. Y el sobreajuste es un gran factor causal.

— curioso_cat
fuente

0

Lo que hacemos con el Roc para verificar el sobreajuste es separar el conjunto de datos al azar en el entrenamiento y la valoración y comparar el AUC entre esos grupos. Si el AUC es "mucho" (tampoco existe una regla general) más grande en el entrenamiento, entonces podría haber un sobreajuste.

— María Frances Gaska
fuente