El modelo de regresión logística es de máxima probabilidad utilizando el parámetro natural (la relación log-odds) para contrastar los cambios relativos en el riesgo de la diferencia de resultado por unidad en el predictor. Esto supone, por supuesto, un modelo de probabilidad binomial para el resultado. Eso significa que las propiedades de consistencia y robustez de la regresión logística se extienden directamente desde la máxima probabilidad: robusta a faltante en datos aleatorios, consistencia raíz-n y existencia y unicidad de soluciones para estimar ecuaciones. Esto supone que las soluciones no están en los límites del espacio de parámetros (donde las relaciones de probabilidades de registro son ). Debido a que la regresión logística es la probabilidad máxima, la función de pérdida está relacionada con la probabilidad, ya que son problemas de optimización equivalentes.± ∞
Con cuasilikelihood o estimaciones de ecuaciones (inferencia semiparamétrica), la existencia, las propiedades de unicidad aún se mantienen, pero la suposición de que el modelo medio no es relevante y la inferencia y los errores estándar son consistentes independientemente de la especificación errónea del modelo. Entonces, en este caso, no se trata de si el sigmoide es la función correcta, sino una que nos da una tendencia en la que podemos creer y está parametrizada por parámetros que tienen una interpretación extensible.
Sin embargo, el sigmoide no es la única función de modelado binario de este tipo. La función probit más comúnmente contrastada tiene propiedades similares. No estima las proporciones de log-odds, pero funcionalmente se ven muy similares y tienden a dar aproximaciones muy similares a exactamente lo mismo . Tampoco es necesario usar propiedades de límite en la función media del modelo. Simplemente usando una curva logarítmica con una función de varianza binomial se obtiene una regresión de riesgo relativo, un enlace de identidad con varianza binomial proporciona modelos de riesgo aditivos. Todo esto lo determina el usuario. La popularidad de la regresión logística es, lamentablemente, por qué se usa con tanta frecuencia. Sin embargo, tengo mis razones (las que dije) por las que creo que está bien justificado para su uso en la mayoría de las circunstancias de modelado de resultados binarios.
En el mundo de la inferencia, para resultados raros, la razón de posibilidades puede interpretarse aproximadamente como un "riesgo relativo", es decir, un "cambio relativo porcentual en el riesgo de resultado que compara X + 1 con X". Este no es siempre el caso y, en general, un odds ratio no puede ni debe interpretarse como tal. Sin embargo, que los parámetros tienen interpretación y pueden comunicarse fácilmente a otros investigadores es un punto importante, algo que lamentablemente falta en los materiales didácticos de los aprendices de máquina.
El modelo de regresión logística también proporciona los fundamentos conceptuales para enfoques más sofisticados, como el modelado jerárquico, así como los enfoques de modelado mixto y probabilidad condicional que son consistentes y robustos para un número exponencialmente creciente de parámetros molestos. Los GLMM y la regresión logística condicional son conceptos muy importantes en las estadísticas de alta dimensión.