La respuesta corta es que la teoría de probabilidad existe para guiarnos hacia soluciones óptimas, y maximizar algo más que la probabilidad, probabilidad penalizada o densidad bayesiana posterior da como resultado estimadores subóptimos. En segundo lugar, minimizar la suma de los errores al cuadrado conduce a estimaciones imparciales de probabilidades verdaderas. Aquí no desea estimaciones imparciales, porque tener esas estimaciones puede ser negativo o mayor que uno. Para restringir adecuadamente las estimaciones se requiere obtener estimaciones ligeramente sesgadas (hacia el centro) en general, en la escala de probabilidad (no de logit).
No crea que los métodos de aprendizaje automático no hacen suposiciones. Este problema tiene poco que ver con el aprendizaje automático.
Tenga en cuenta que una proporción individual es una estimación imparcial de la probabilidad real, por lo tanto, un modelo logístico binario con solo una intersección proporciona una estimación imparcial. Un modelo logístico binario con un único predictor que tiene categorías mutuamente excluyentes proporcionará estimaciones de probabilidades no sesgadas. Creo que un modelo que capitaliza los supuestos de aditividad y permite al usuario solicitar estimaciones fuera del rango de datos (por ejemplo, un único predictor continuo) tendrá un pequeño sesgo en la escala de probabilidad para respetar el restricción.kk[ 0 , 1 ]