Agregar ponderaciones para conjuntos de datos altamente sesgados en regresión logística


9

Estoy usando una versión estándar de regresión logística para ajustar mis variables de entrada a las variables de salida binarias.

Sin embargo, en mi problema, las salidas negativas (0s) superan con creces a las salidas positivas (1s). La relación es 20: 1. Entonces, cuando entreno un clasificador, parece que incluso las características que sugieren fuertemente la posibilidad de una salida positiva todavía tienen valores muy bajos (altamente negativos) para sus parámetros correspondientes. Me parece que esto sucede porque hay demasiados ejemplos negativos que arrastran los parámetros en su dirección.

Entonces me pregunto si puedo agregar pesos (digamos usando 20 en lugar de 1) para los ejemplos positivos. ¿Es probable que esto se beneficie en absoluto? Y si es así, ¿cómo debo agregar los pesos (en las ecuaciones a continuación).

La función de costo tiene el siguiente aspecto:

J=(-1/ /metro)yo=1metroyIniciar sesión(h(Xθ))+(1-y)(1-Iniciar sesión(h(Xθ)))

El gradiente de esta función de costo (wrt ) es:θ

solrunare=((h(Xθ)-y)X)

Aquí = número de casos de prueba, = matriz de características, = vector de salida, = función sigmoide, = parámetros que estamos tratando de aprender.metroXyhθ

Finalmente corro el descenso de gradiente para encontrar el más bajo posible. La implementación parece ejecutarse correctamente.J


Hola, tengo exactamente el mismo problema que describiste. En mis datos, muchos ejemplos son negativos y muy pocos positivos, y para mí es más importante clasificar correctamente los positivos, incluso si eso significa clasificar erróneamente algunos negativos. Parece que también estoy aplicando los mismos métodos que usted, ya que estoy usando la misma función de costo y ecuaciones de gradiente. Hasta ahora, he realizado algunas pruebas y obtuve los siguientes resultados: - Con 7 parámetros , Tamaño de muestra de entrenamiento: 225000 , Tamaño de muestra de prueba: 75000 Resultados: 92% de precisión , aunque en los casos positivos solo 11% w
Cartz

1
Lo que está haciendo es confundir una función de pérdida con la máxima probabilidad. El archivo no ponderado está haciendo lo "correcto" desde una perspectiva inferencial, y refleja cuán raro es el resultado para cada especificación de covariable. También podría tener una separación, esto sucedería si un conjunto particular de covariables que puede predecir perfectamente la respuesta en los datos de entrenamiento, esto conduciría a grandes valores negativos.
probabilidad es

2
La clasificación no es un buen objetivo y no es la forma en que se desarrolló la regresión logística. Es la noción de clasificación la que causa todos los problemas enumerados aquí. Apéguese a las probabilidades pronosticadas y a las reglas de puntaje de precisión adecuadas
Frank Harrell

1
@arahant Eso es solo parcialmente cierto. Una regresión logística binaria con un enlace logit sigue siendo válida porque los coeficientes en sus covariables son MLE y reflejan el efecto que esas variables tienen sobre las probabilidades de la clase 1 en comparación con la clase 0. Sin embargo, en un diseño de control de casos, la intersección es siempre se fija para reflejar la proporción de la clase 1 a la clase 0, y es perfectamente válido ajustar el término de intercepción para asignar clases en línea con, por ejemplo, alguna función de costo de clasificación errónea u otro proceso, porque esto no cambia los coeficientes en variables.
Sycorax dice Reinstate Monica

1
¿De dónde sacó la idea de que se necesita / desea / desea un límite?
Frank Harrell

Respuestas:


8

Eso ya no sería la máxima probabilidad. Una distribución tan extrema de solo presenta problemas si está utilizando un clasificador, es decir, si está calculando la proporción clasificada correctamente, una regla de puntuación incorrecta. Las estimaciones de probabilidad de la probabilidad máxima estándar son válidas. Si el número total de "positivos" es menor que 15 veces el número de variables candidatas, la estimación de máxima probabilidad penalizada puede estar en orden.Y


Frank, ¿hay alguna referencia o algo para respaldar tus detalles de "15 veces ..."? Tengo un desequilibrio similar en algunos datos para los que estoy usando la regresión logística en lugar de un método ROC que desarrollaron otros investigadores. Recientemente me encontré con el sesgo de muestra pequeña y agregué una opción para la reducción de sesgo de Firth como una opción de ajuste en mi código / paquete. Mientras escribo esto para un diario, sería útil tener algo que citar junto con reglas generales como esta. Disculpas si la referencia es su libro de RMS, ya que está en mis estantes, pero aún no he visto allí.
Gavin Simpson

Hay documentos sobre sesgos en muestras pequeñas y el valor de la penalización de Firth. No los tengo a mano. Con respecto a 15: 1 ver biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank Harrell

Gracias Frank: los problemas 15: 1 eran lo que más buscaba. Tengo algunas publicaciones sobre el sesgo de muestra pequeña y el método de Firth, pero si finalmente tuviera algo a mano, le agradecería que me hiciera saber de qué se trataba.
Gavin Simpson

3
En caso de que alguien más deba leer mal lo anterior como lo hice al principio. El 20: 1 en la pregunta es la relación de observaciones negativas a positivas. El 15: 1 en la respuesta de Frank Harrell es otra cosa: la relación de observaciones positivas a variables independientes candidatas.
Adam Bailey

Una distribución extrema también presenta un problema al aumentar la posibilidad de una separación casi completa, especialmente si tiene predictores categóricos. La penalización también ayuda aquí.
probabilidadislogic

3

En casos como este, a menudo es mejor usar un enlace flexible, en lugar del enlace logístico, que puede capturar esta asimetría. Por ejemplo, un sesgo normal, GEV , sinh-arcsinh , y las referencias allí. Hay muchos otros, pero no puedo publicar más de 2 enlaces.


¿Puede proporcionar alguna explicación para que otras funciones de enlace sean mejores?
DW
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.