Elección entre regresión logística y pruebas de Mann Whitney / t


8

Tengo una variable dicotómica A, que no tiene una proporción determinada a priori de 0 y 1, y una variable continuab.

En el escenario 1, decido designar Acomo la variable independienteXy bcomo la variable dependientey. Entonces prueboX en contra y utilizando pruebas como Mann Whitney (sin distribución), prueba t (distribución normal), etc.

En el escenario 2, decido designar Acomo la variable dependienteYy bcomo la variable independientex. Entonces pruebox en contra Y utilizando regresión logística.

  1. ¿Qué modelo debo elegir cuando no conozco la direccionalidad de la relación entre A y bes decir, no puedo decidir si A es la variable independiente o b es la variable independiente?

  2. Si no estoy seguro de cuáles son las variables dependientes o independientes, ¿no sería válido para mí usar la prueba t / Mann-Whitney en primera instancia como una especie de análisis univariante, y luego usar la regresión logística como un análisis multivariado?

Respuestas:


6

La respuesta a la pregunta 1 dependerá de su pregunta de investigación y de quién es la audiencia para el resultado.

Si su pregunta de investigación apunta a hablar sobre diferencias en b basadas en el perfil de A, entonces eso obviamente ayudará a enmarcar su resumen. En un estudio epidemiológico, incluso si no está tomando muestras basadas en A (variable independiente como estado expuesto / no expuesto), aún tendría sentido usar esta clasificación como una variable independiente [exposición] y la variable continua como una variable dependiente [resultado ] Parece que ya sabes la respuesta a esto.

También debe considerar cómo podría interpretar el resultado en términos de presentar los resultados a otros (e interpretarlo usted mismo). Un modelo [variable] de variable continua como dependiente tendría una diferencia media (o similar) como un resumen; un modelo dicotómico de variable como resultado tendría una razón de probabilidades (razón de probabilidades aumentadas por una unidad de la variable continua, que podría escalarse para dar, por ejemplo, un aumento relativo por cinco kilos de peso adicional para la probabilidad de diabetes tipo II).

Mi experiencia al consultar los entornos y explicar esto a las personas es que la primera (diferencia de medias) es generalmente más fácil de explicar a otras personas que la segunda (cociente de probabilidad por unidad de diferencia de variable independiente continua).

Para su pregunta 2 , si desea ejecutar un modelo multivariable, en el que controla las covariables, será útil elegir variables dependientes / independientes al comienzo. Probablemente sea mejor seguir con el mismo método, desde análisis univariado hasta multivariable, en lugar de cambiar entre los dos enfoques, solo por la facilidad de la explicación.

Nota final sobre este último punto: desde una perspectiva de prueba de hipótesis, una regresión logística con una variable independiente [exposición] continua y una variable dependiente dicotómica [única] debería devolver el mismo valor p que una prueba t no emparejada suponiendo una varianza desigual con las variables invertido (de memoria, no estoy completamente seguro de si esto siempre es cierto).


2
Respondiendo a esta pregunta ( stats.stackexchange.com/questions/48381/… ) encontré el siguiente artículo que discute formalmente la equivalencia de potencia entre la regresión logística binaria y una prueba t no emparejada ncbi.nlm.nih.gov/pubmed/9699234
James Stanley

6

La prueba de Wilcoxon-Mann-Whitney es un caso especial del modelo logístico ordinal de probabilidades proporcionales, por lo que podría decirse que no es necesario cambiar el modelo para usar la regresión logística. Pero la cuestión fundamental al elegir el modelo es determinar qué variables tienen sentido para ajustarse.


2
La suya es una noción muy interesante y aguda, @Frank, pero no es detallada. Por favor, explíquemelo: ¿cuál es este 'caso especial' cuando la regresión logística ordinal de una variable cuantitativa en una variable dicotómica es exactamente equivalente a la prueba de Mann-Whitney?
ttnphns

1
Un modelo de probabilidades proporcionales con solo una serie de variables ficticias como predictores, que representan k grupos, es equivalente a un ANOVA de rango de Kruskal-Wallis con k grupos (k = 2 -> Wilcoxon). El numerador del estadístico de puntaje es el estadístico ANOVA de rango (Wilcoxon).
Frank Harrell el

1
Por favor, @Frank, ¿puedes encontrar tiempo para demostrar (probar) la equivalencia de algunos datos pequeños directamente en tu respuesta? Sería interesante e importante. Una referencia, si hay alguna, también podría ser buena. Muchas gracias.
ttnphns

1
Ver Whitehead, John: Cálculos de tamaño de muestra para datos categóricos ordenados. Estadísticas en medicina 12 : 2257-2271; 1993. Ver carta al editor SM 15: 1065-6 para el caso binario; ver erratas en SM 13: 871 1994
Frank Harrell

2
¿Podría ampliar su última oración en la respuesta? Gracias.
jetistat001

1

Ese es un intento de una respuesta parcial:

Usaría una prueba de Mann Whitney porque hace menos suposiciones. La regresión logística asume una forma cercana (es decir, logit) para la relación entre estas dos variables). Además, la regresión logística supone queY se da Bernoulli X: si este no es el caso (por ejemplo, un número a priori de muestras con Y=1 y Y=0 como en un estudio de casos y controles), no estoy seguro de si los resultados (como los valores p) aún se mantendrían. Sin embargo, ya vi a muchas personas haciendo esto.

Por otro lado, Mann Whitney no parece tener problemas con esto, es decir, sostiene si es o no un estudio de casos y controles.


1
+1 re la constitución a priori deY. Es un punto importante y debería haber mencionado que no hay un número a priori de muestras en ninguno de los escenarios que describo, yYsigue a Bernoulli. A favor de LR, se podría argumentar que LR ofrece un análisis multivariado. ¿Alguna idea sobre la noción de usar ambos consecutivamente?
jetistat001

Bueno, la regresión logística se diseñó específicamente para trabajar con estudios de casos y controles, consulte stats.stackexchange.com/questions/67903/…
kjetil b halvorsen

0

Como con muchas preguntas, la respuesta depende de su propósito subyacente en la realización del análisis. Si está interesado no solo en demostrar que existe una asociación significativa entre una variable dicotómica A y una variable continua b, sino también en poder calcular la probabilidad esperada del evento registrado en la variable A, entonces desea utilizar la logística regresión, ya que este enfoque le proporciona una ecuación de regresión. Además, la regresión logística en el caso bivariado de A y b puede extenderse al caso multivariado de predecir A a partir de b y numerosas otras variables independientes con el fin de controlar covariables, probar modelos mediacionales, examinar interacciones y todas las Otras cosas buenas que podemos hacer con la regresión múltiple. Una vez dicho esto, probablemente debería considerar la función de enlace que relaciona la variable dicotómica A con la variable continua B. La regresión logística utilizó un enlace logit, que es más apropiado cuando la probabilidad del resultado es muy alta o baja, mientras que un enlace probit puede ser más apropiado cuando la probabilidad del evento está más cerca de .5 Elegir la función de enlace que sea apropiada para sus datos es importante para construir un buen modelo de regresión. Puede encontrar más información sobre las funciones de enlace en los siguientes enlaces: 5 Elegir la función de enlace que sea apropiada para sus datos es importante para construir un buen modelo de regresión. Puede encontrar más información sobre las funciones de enlace en los siguientes enlaces: 5 Elegir la función de enlace que sea apropiada para sus datos es importante para construir un buen modelo de regresión. Puede encontrar más información sobre las funciones de enlace en los siguientes enlaces:

http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf


2
No creo que la elección entre usar el enlace logit y probit tenga mucho que ver con si las probabilidades son cercanas a .5. He escrito sobre la elección del enlace aquí: diferencia entre modelos logit y probit . He escuchado a personas sugerir cloglogcuándo las categorías de respuesta están desequilibradas, pero existen otras opciones.
gung - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.