PREFACIO: No me importan los méritos de usar un límite o no, ni cómo se debe elegir un límite. Mi pregunta es puramente matemática y debido a la curiosidad.
La regresión logística modela la probabilidad condicional posterior de la clase A versus la clase B y se ajusta a un hiperplano donde las probabilidades condicionales posteriores son iguales. Entonces, en teoría, entendí que un punto de clasificación de 0.5 minimizará los errores totales independientemente del equilibrio establecido, ya que modela la probabilidad posterior (suponiendo que encuentre constantemente la misma relación de clase).
En mi ejemplo de la vida real, obtengo muy poca precisión usando P> 0.5 como mi punto de corte de clasificación (aproximadamente 51% de precisión). Sin embargo, cuando miré el AUC está por encima de 0,99. Así que miré algunos valores de corte diferentes y descubrí que P> 0.6 me dio un 98% de precisión (90% para la clase más pequeña y 99% para la clase más grande), solo el 2% de los casos se clasificaron erróneamente.
Las clases están muy desequilibradas (1: 9) y es un problema de alta dimensión. Sin embargo, asigné las clases por igual a cada conjunto de validación cruzada para que no haya una diferencia entre el equilibrio de clases entre el ajuste del modelo y la predicción. También intenté usar los mismos datos del ajuste del modelo y en las predicciones y ocurrió el mismo problema.
Estoy interesado en la razón por la cual 0.5 no minimizaría los errores, pensé que esto sería por diseño si el modelo se ajusta minimizando la pérdida de entropía cruzada.
¿Alguien tiene algún comentario sobre por qué sucede esto? ¿Se debe a la penalización añadida? ¿Alguien puede explicar qué está sucediendo?