Extender la regresión logística para resultados en el rango entre 0 y 1


9

Tengo un problema de regresión en el que los resultados no son estrictamente 0, 1 sino que están en el rango de todos los números reales de 0 a 1 incluidos .Y=[0 0,0,12,0,31,...,1]

Este problema ya se ha discutido en este hilo , aunque mi pregunta es ligeramente diferente.

No puedo usar la regresión lineal por las mismas razones que normalmente se usa la regresión logística. En la regresión lineal A) los valores de IV muy grandes sesgarán el resultado predicho a 1 y B) el resultado de la regresión lineal no está limitado a los límites de 0,1.

Al observar esta función de costo logístico de mi libro de , deduzco que la ecuación está diseñada para calcular un costo mayor que 0 solo cuando y no tienen el mismo valor 0 o 1.y x

Costo=-yIniciar sesión(h(X))-(1-y)Iniciar sesión(1-h(X))
yX

¿Sería posible utilizar la regresión logística modificando la función de costo para medir todos los errores de hipótesis?

Respuestas:


9

Tienes varias opciones. Dos de ellos podrían ser:

  1. YIniciar sesión(y1-y)
  2. Y

Y


2
(+1) Opción 2: por lo general, estimaría la sobredispersión y la usaría para calcular los errores estándar: un modelo "cuasi-binomial" en el que la relación entre la varianza y la media de Y es proporcional en lugar de la misma que la de Una variable binomial.
Scortchi - Restablece a Monica

@Scortchi: ¿Es esto lo que glm()está haciendo la función en R cuando se alimenta con una respuesta continua y family=quasibinomial? Es decir, estimará los coeficientes con family=binomialy luego, en un paso adicional, calculará los errores estándar teniendo en cuenta la sobredispersión. En caso afirmativo, ¿es lo mismo que calcular "errores estándar robustos"? Tengo algunos datos apropiados y probé con ambas familias glm; Obtengo coeficientes idénticos pero diferentes errores estándar. Gracias.
ameba

1
@amoeba: Sí, eso es. Pero "errores estándar robustos" generalmente significan usar un estimador tipo sándwich o similar.
Scortchi - Restablece a Monica


0

Como y no es estrictamente cero o uno (como usted dijo), el costo siempre debe ser mayor que cero. Entonces, no creo que necesites la modificación en el modelo.


0

Sugiero dos modelos alternativos:

Si sus resultados (variables y) están ordenados, pruebe un modelo Probit ordenado.

Si sus resultados (variables y) no están ordenados, pruebe con un modelo Logit multinomial.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.