Regresión beta de datos de proporción, incluidos 1 y 0


19

Estoy tratando de producir un modelo para el que tengo una variable de respuesta que es una proporción entre 0 y 1, esto incluye bastantes 0s y 1s pero también muchos valores intermedios. Estoy pensando en intentar una regresión beta. El paquete que he encontrado para R (betareg) solo permite valores entre 0 y 1 pero no incluye 0 o 1 ellos mismos. He leído en otra parte que, en teoría, la distribución beta debería ser capaz de manejar valores de 0 o 1, pero no sé cómo manejar esto en RI, he visto a algunas personas agregar 0.001 a los ceros y tomar 0.001 de ellos, pero no soy Seguro que es una buena idea?

Alternativamente, podría logit transformar la variable de respuesta y usar regresión lineal. En este caso, tengo el mismo problema con los 0 y 1 que no se pueden transformar.


Conocer los recuentos, no solo las proporciones, es crucial sin importar lo que hagas. Pero una vez que tiene los recuentos, el primer modelo a considerar, incluso si es solo un punto de partida, es la regresión logística.
whuber

Bueno, una beta está entre 0 y 1 ( casi seguro ). Si los observa, debe usar un modelo que le permita observar su muestra. Un par de respuestas parecen cubrir ese tipo de enfoque; Yo comenzaría con ellos.
Glen_b -Reinstate Monica

Respuestas:


18

Podría usar modelos de regresión beta inflados cero o uno que combinen la distribución beta con una distribución degenerada para asignar alguna probabilidad a 0 y 1 respectivamente. Para más detalles, consulte las siguientes referencias:

Ospina, R. y Ferrari, SLP (2010). Distribuciones beta infladas. Documentos estadísticos, 51 (1), 111-126. Ospina, R. y Ferrari, SLP (2012). Una clase general de modelos de regresión beta inflados cero o uno. Estadística computacional y análisis de datos, 56 (6), 1609-1623.

Estos modelos son fáciles de implementar con el paquete gamlss para R.


¿Tiene un ejemplo de cómo implementarlos en R?
Ouistiti

2
@Ouistiti el zoibpaquete lo hace fácilmente.
Mark White el

11

La documentación para el betaregpaquete R menciona que

si y también asume los extremos 0 y 1, una transformación útil en la práctica es (y * (n − 1) + 0.5) / n donde n es el tamaño de la muestra.

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

Dan la referencia Smithson M, Verkuilen J (2006). "¿Un mejor exprimidor de limón? Regresión de máxima probabilidad con variables dependientes distribuidas en beta". Métodos psicológicos, 11 (1), 54-71.


1

¿No haces una transformación logit para hacer que la variable varíe de menos infinito a más infinito? No estoy seguro si los datos que tienen 0 y 1 deberían ser un problema. ¿Eso muestra algún mensaje de error? Por cierto, si solo tiene proporciones, su análisis siempre saldrá mal. Es necesario utilizar weight=argumentpara glmel número de casos.

Si nada funciona, puede usar una división mediana o una división de cuartil o cualquier punto de corte que considere apropiado para dividir el DV en varias categorías y luego ejecutar una regresión logística ordinal. Eso puede funcionar. Prueba estas cosas.

Personalmente, no creo que agregar 0.001 a los ceros y quitar 0.001 sea una mala idea, pero tiene algunos problemas que se discutirán más adelante. Solo piense, ¿por qué no suma y resta 0.000000001 (o incluso más de los decimales)? ¡Eso representará mejor 0 y 1! Puede parecerle que no hace mucha diferencia. Pero en realidad lo hace.

Veamos lo siguiente:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

Entonces, como ve, necesita mantener las probabilidades tan cerca como (0/1) y (1/0). Espera que las probabilidades de registro oscilen entre menos infinito y más infinito. Por lo tanto, para sumar o restar, ¡debes elegir hasta un decimal muy largo, de modo que las probabilidades de registro sean cercanas al infinito (o muy grandes)! El grado que considerará lo suficientemente grande depende únicamente de usted.


1

Consulte lo siguiente, donde se menciona una transformación ad hoc maartenbuis.nl/presentations/berlin10.pdf en la diapositiva 17. También podría modelar 0 y 1 con dos regresiones logísticas separadas y luego usar la regresión Beta para aquellos que no están en el límite.


1
(y(norte-1)+0,5)/ /nortenorte

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.