Aunque esta pregunta y su primera respuesta parecen centrarse en cuestiones teóricas de la calibración del modelo de regresión logística, la cuestión de:
¿Cómo podría uno arruinar la calibración de una regresión logística ...?
merece cierta atención con respecto a las aplicaciones del mundo real, para futuros lectores de esta página. No debemos olvidar que el modelo de regresión logística debe estar bien especificado y que este problema puede ser particularmente problemático para la regresión logística.
Primero, si las probabilidades de registro de la pertenencia a una clase no están relacionadas linealmente con los predictores incluidos en el modelo, entonces no estarán bien calibrados. El capítulo 10 de Harrell sobre Regresión logística binaria dedica unas 20 páginas a la "Evaluación del ajuste del modelo" para que uno pueda aprovechar la "imparcialidad asintótica del estimador de máxima verosimilitud", como lo expresó @whuber.
En segundo lugar, la especificación del modelo es un problema particular en la regresión logística, ya que tiene un sesgo variable omitido inherente que puede ser sorprendente para aquellos con antecedentes en regresión lineal ordinaria. Como dice esa página:
Las variables omitidas sesgarán los coeficientes de las variables incluidas, incluso si las variables omitidas no están correlacionadas con las variables incluidas.
Esa página también tiene una explicación útil de por qué es de esperar este comportamiento, con una explicación teórica para modelos probit relacionados, analíticamente manejables. Entonces, a menos que sepa que ha incluido todos los predictores relacionados con la membresía de la clase, en la práctica puede encontrarse con peligros de especificación errónea y calibración deficiente.
Con respecto a la especificación del modelo, es muy posible que los métodos basados en árboles como el bosque aleatorio, que no asumen linealidad en un rango completo de valores de predictores e inherentemente brinden la posibilidad de encontrar e incluir interacciones entre predictores, terminen con un mejor rendimiento. modelo calibrado en la práctica que un modelo de regresión logística que no tiene suficientemente en cuenta los términos de interacción o la no linealidad. Con respecto al sesgo de variables omitidas, no me queda claro si algún método para evaluar las probabilidades de pertenencia a una clase puede abordar ese problema adecuadamente.