¿Es una buena idea ajustar los valores p en una regresión múltiple para comparaciones múltiples?


54

Supongamos que es un investigador / econométrico de ciencias sociales que intenta encontrar predictores relevantes de la demanda de un servicio. Tiene 2 variables de resultado / dependientes que describen la demanda (utilizando el servicio sí / no y el número de ocasiones). Tiene 10 variables predictoras / independientes que podrían explicar teóricamente la demanda (por ejemplo, edad, sexo, ingresos, precio, raza, etc.). Ejecutar dos regresiones múltiples separadas producirá 20 estimaciones de coeficientes y sus valores p. Con suficientes variables independientes en sus regresiones, tarde o temprano encontrará al menos una variable con una correlación estadísticamente significativa entre las variables dependientes e independientes.

Mi pregunta: ¿es una buena idea corregir los valores p para múltiples pruebas si quiero incluir todas las variables independientes en la regresión? Cualquier referencia a trabajos anteriores es muy apreciada.


hmmm ... problema interesante: regresión bivariada con una variable [más o menos] continua y una dicotómica. La teoría de regresión MVN habitual dice que hacer regresiones separadas en cada una de las dos respuestas normales bivariadas, y luego juntar los resultados, es el análisis correcto, en el sentido de Gauss-Markov de minimizar la matriz vc de los estimadores de regresión entre todos los estimadores lineales imparciales y en el caso MVN, entre todos los estimadores insesgados]. ¿son las 'regresiones separadas' lo mejor que se puede hacer cuando una regresión es logística? [la imparcialidad parece un poco
exagerada

Respuestas:


48

Parece que su pregunta generalmente aborda el problema de identificar buenos predictores. En este caso, debe considerar usar algún tipo de regresión penalizada (los métodos que se ocupan de la selección de variables o características también son relevantes), por ejemplo, con penalizaciones L1, L2 (o una combinación de ellas, la llamada red elástica ) (busque preguntas relacionadas en este sitio, o el paquete R penalizado y elástico , entre otros).

Ahora, sobre la corrección de los valores p para sus coeficientes de regresión (o, de manera equivalente, sus coeficientes de correlación parciales) para proteger contra el exceso de optimismo (por ejemplo, con Bonferroni o, mejor, métodos reductores), parece que esto solo sería relevante si está considerando un modelo y busque los predictores que contribuyen con una parte significativa de la varianza explicada, es decir, si no realiza la selección del modelo (con selección por pasos o pruebas jerárquicas). Este artículo puede ser un buen comienzo: ajustes de Bonferroni en pruebas de coeficientes de regresión . Tenga en cuenta que dicha corrección no lo protegerá contra el problema de multicolinealidad, que afecta los valores p informados.

Teniendo en cuenta sus datos, recomendaría utilizar algún tipo de técnicas de selección de modelos iterativos. En R, por ejemplo, la stepAICfunción permite realizar una selección de modelo por pasos por AIC exacto. También puede estimar la importancia relativa de sus predictores en función de su contribución a utilizando boostrap (consulte el paquete relaimpo ). Creo que informar la medida del tamaño del efecto o el% de la varianza explicada son más informativos que el valor p, especialmente en un modelo confirmatorio.R2

Cabe señalar que los enfoques escalonados también tienen sus inconvenientes (por ejemplo, las pruebas de Wald no están adaptadas a hipótesis condicionales como las inducidas por el procedimiento escalonado), o según lo indicado por Frank Harrell en el correo R , "la selección variable escalonada basada en AIC tiene todos los problemas de selección de variables escalonadas basadas en valores P. El AIC es solo una reexpresión del valor P "(pero el AIC sigue siendo útil si el conjunto de predictores ya está definido); una pregunta relacionada: ¿es una variable significativa en un modelo de regresión lineal? - planteó comentarios interesantes ( @Rob , entre otros) sobre el uso de AIC para la selección de variables. Adjunto un par de referencias al final (incluidos los documentos amablemente proporcionados por @Stephan); También hay muchas otras referencias en P.Mean .

Frank Harrell escribió un libro sobre Estrategia de modelado de regresión que incluye mucha discusión y consejos sobre este problema (§4.3, pp. 56-60). También desarrolló rutinas R eficientes para lidiar con modelos lineales generalizados (Ver el diseño o paquetes rms ). Entonces, creo que definitivamente debes echarle un vistazo (sus folletos están disponibles en su página de inicio).

Referencias

  1. Whittingham, MJ, Stephens, P, Bradbury, RB y Freckleton, RP (2006). ¿Por qué todavía utilizamos modelos paso a paso en ecología y comportamiento? Journal of Animal Ecology , 75 , 1182-1189.
  2. Austin, PC (2008). La selección del modelo Bootstrap tuvo un rendimiento similar para seleccionar variables auténticas y de ruido en comparación con la eliminación de variables hacia atrás: un estudio de simulación . Journal of Clinical Epidemiology , 61 (10) , 1009-1017.
  3. Austin, PC y Tu, JV (2004). Los métodos automatizados de selección de variables para la regresión logística produjeron modelos inestables para predecir la mortalidad por infarto agudo de miocardio . Journal of Clinical Epidemiology , 57 , 1138–1146.
  4. Groenlandia, S (1994). Regresión jerárquica para análisis epidemiológicos de exposiciones múltiples . Perspectivas de salud ambiental , 102 (Supl 8) , 33–39.
  5. Groenlandia, S (2008). Múltiples comparaciones y selección de asociación en epidemiología general . Revista Internacional de Epidemiología , 37 (3) , 430-434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T y Sung L (2009). Determinar la importancia relativa de las variables en el desarrollo y validación de modelos predictivos . Metodología de investigación médica de BMC , 9 , 64.
  7. Bursac, Z, Gauss, CH, Williams, DK y Hosmer, DW (2008). Selección intencional de variables en regresión logística . Código fuente de biología y medicina , 3 , 17.
  8. Brombin, C, Finos, L y Salmaso, L (2007). Ajuste de valores p escalonados en modelos lineales generalizados . Conferencia internacional sobre procedimientos de comparación múltiple . - ver step.adj()en el paquete R someMTP .
  9. Wiegand, RE (2010). Rendimiento del uso de múltiples algoritmos paso a paso para la selección de variables . Estadísticas en medicina , 29 (15), 1647–1659.
  10. Moons KG, Donders AR, Steyerberg EW y Harrell FE (2004). Estimación de máxima verosimilitud penalizada para predecir resultados binarios. Journal of Clinical Epidemiology , 57 (12) , 1262-1270.
  11. Tibshirani, R (1996). Contracción de la regresión y selección a través del lazo . Diario de la sociedad estadística real B , 58 (1) , 267–288.
  12. Efron, B, Hastie, T, Johnstone, I y Tibshirani, R (2004). Regresión de ángulo mínimo . Annals of Statistics , 32 (2) , 407-499.
  13. Flom, PL y Cassell, DL (2007). Detener paso a paso: por qué los métodos de selección paso a paso y similares son malos y qué debe usar . Actas de NESUG 2007 .
  14. Shtatland, ES, Cain, E. y Barton, MB (2001). Los peligros de la regresión logística por pasos y cómo escapar de ellos utilizando criterios de información y el Sistema de entrega de salida . Procedimientos SUGI 26 (págs. 222–226).

10
No me importa el voto negativo, pero agradecería un comentario (para que yo pueda aprender, entender lo que estaba mal y mejorar mis respuestas futuras).
chl

3
+1, buena respuesta y también secundando el comentario de chl sobre dejar una explicación para los votos negativos para ayudar tanto al autor como a los lectores a comprender lo que podría faltar. Gracias.
ars

En segundo lugar, recomendé la recomendación de usar algún tipo de regresión penalizada (por ejemplo, el lazo).
S. Kolassa - Restablece a Monica el

10
@chl: no estoy contento con recomendar la selección de predictores paso a paso. Por lo general, esto se basa en los valores de p ("excluir un predictor con p> .15, incluirlo si p <.05") y conduce a estimaciones sesgadas y mal desempeño predictivo (Whittingham et al., 2006, ¿Por qué todavía utilizar el modelado por pasos en ecología y comportamiento? J Anim Ecol, 75, 1182-1189). Sin embargo, los enfoques escalonados basados ​​en AIC tienen la misma debilidad: Frank Harrell discutió esto en una publicación de R-help el lunes, 09 de agosto de 2010 16:34:19 -0500 (CDT) en el hilo "Regresión logística en R (SAS - como salida) ".
S. Kolassa - Restablece a Monica el

¿Hay alguna forma de incluir enlaces en los comentarios?
S. Kolassa - Restablece a Monica el

25

En gran medida, puede hacer lo que quiera, siempre que tenga suficientes datos al azar para probar cualquier modelo con el que se base en los datos retenidos. Una división del 50% puede ser una buena idea. Sí, pierde la capacidad de detectar relaciones, pero lo que gana es enorme; a saber, la capacidad de replicar su trabajo antes de que se publique. No importa cuán sofisticadas sean las técnicas estadísticas que aplique, se sorprenderá de cuántos predictores "significativos" terminan siendo completamente inútiles cuando se aplican a los datos de confirmación.

Tenga en cuenta también que "relevante" para la predicción significa más que un valor p bajo. Después de todo, eso solo significa que es probable que una relación encontrada en este conjunto de datos en particular no se deba al azar. Para la predicción, en realidad es más importante encontrar las variables que ejercen una influencia sustancial en la predicción (sin ajustar demasiado el modelo); es decir, para encontrar las variables que probablemente sean "reales" y, cuando varían en un rango razonable de valores (¡no solo los valores que pueden aparecer en su muestra!), hacen que la predicción varíe de manera apreciable. Cuando tiene datos de retención para confirmar un modelo, puede sentirse más cómodo reteniendo provisionalmente variables marginalmente "significativas" que podrían no tener valores p bajos.

Por estas razones (y basándose en la buena respuesta de chl), aunque he encontrado modelos paso a paso, comparaciones de AIC y correcciones de Bonferroni bastante útiles (especialmente con cientos o miles de posibles predictores en juego), estos no deberían ser los únicos determinantes de qué variables Ingrese su modelo. Tampoco pierda de vista la orientación brindada por la teoría: las variables que tienen una fuerte justificación teórica para estar en un modelo generalmente deben mantenerse, incluso cuando no son significativas, siempre que no creen ecuaciones mal condicionadas ( por ejemplo, colinealidad) .

NB : Después de que se haya decidido por un modelo y haya confirmado su utilidad con los datos retenidos, está bien recombinar los datos retenidos con los datos retenidos para la estimación final. Por lo tanto, no se pierde nada en términos de precisión con la que puede estimar los coeficientes del modelo.


¡Gracias! Si no tiene acceso a los datos originales, sino solo a una tabla de coeficientes de regresión, ¿es el ajuste de Bonferroni su única opción?
Mikael M

44
Presumiblemente también tienes los valores p :-). Pero con solo esos y los coeficientes, es difícil imaginar qué más podría hacer además de un ajuste de Bonferroni. (Siempre hago un ajuste de este tipo cada vez que leo cualquier artículo con varias pruebas: es una forma rápida de conocer los resultados que probablemente sean basura). La mayoría de las personas también proporcionan estadísticas resumidas para las variables: puede usar rangos o SDS junto con los coeficientes para estimar cuánto efecto podría tener cada variable explicativa en el pronóstico.
whuber

Gracias por tu explicación, especialmente. en validación cruzada. Agradezco su último argumento, es decir, que también tenemos que buscar la relevancia teórica (más allá de los valores p).
chl

19

Creo que esta es una muy buena pregunta; llega al corazón del polémico "problema" de pruebas múltiples que afecta a campos que van desde la epidemiología hasta la econometría. Después de todo, ¿cómo podemos sabemos si el significado que encontramos es falsa o no? ¿Qué tan cierto es nuestro modelo multivariable?

En términos de enfoques técnicos para compensar la probabilidad de publicar variables de ruido, estoy totalmente de acuerdo con 'whuber' en que usar una parte de su muestra como datos de entrenamiento y el resto como datos de prueba es una buena idea. Este es un enfoque que se discute en la literatura técnica, por lo que si se toma el tiempo, probablemente pueda encontrar algunas buenas pautas sobre cuándo y cómo usarlo.

Pero para atacar más directamente la filosofía de las pruebas múltiples, le sugiero que lea los artículos a los que me refiero a continuación, algunos de los cuales respaldan la posición de que el ajuste para las pruebas múltiples a menudo es perjudicial (poder de costos), innecesario e incluso puede ser una falacia lógica. . Por mi parte, no acepto automáticamente la afirmación de que nuestra capacidad de investigar un predictor potencial se reduce inexorablemente por la investigación de otro. La tasa de error Tipo 1 a nivel familiar puede aumentar a medida que incluimos más predictores en un modelo dado, pero siempre que no superemos los límites del tamaño de nuestra muestra, la probabilidad de error Tipo 1 para cada individuoel predictor es constante; y el control del error familiar no ilumina qué variable específica es el ruido y cuál no. Por supuesto, también hay contraargumentos convincentes.

Por lo tanto, siempre y cuando limite su lista de variables potenciales a aquellas que sean plausibles (es decir, hubieran conocido las vías hacia el resultado), el riesgo de espuria ya se maneja bastante bien.

Sin embargo, agregaría que un modelo predictivo no está tan preocupado por el "valor de verdad" de sus predictores como un modelo causal ; Puede haber una gran confusión en el modelo, pero siempre que expliquemos un gran grado de la variación, no nos preocuparemos demasiado. Esto facilita el trabajo, al menos en un sentido.

Salud,

Brenden, consultor bioestadístico

PD: es posible que desee hacer una regresión de Poisson inflada a cero para los datos que describe, en lugar de dos regresiones separadas.

  1. Perneger, TV ¿Qué hay de malo con los ajustes de Bonferroni ? BMJ 1998; 316: 1236
  2. Cook, RJ & Farewell, VT Consideraciones de multiplicidad en el diseño y análisis de ensayos clínicos . Diario de la sociedad estadística real , serie A 1996; Vol. 159, N ° 1: 93-110
  3. Rothman, KJ No se necesitan ajustes para comparaciones múltiples . Epidemiology 1990; Vol. 1, N ° 1: 43-46
  4. Marshall, JR Dragado de datos y notable . Epidemiology 1990; Vol. 1, N ° 1: 5-7
  5. Groenlandia, S. y Robins, JM Empirical-Bayes ajustes para comparaciones múltiples a veces son útiles . Epidemiology 1991; Vol. 2, N ° 4: 244-251

Cont .: 2. Cook RJ y adiós VT Consideraciones de multiplicidad en el diseño y análisis de ensayos clínicos. Diario de la sociedad estadística real, serie A 1996; Vol. 159, N ° 1: 93-110
Brenden el

Gracias por sus comentarios, Brenden, especialmente el último sobre predicción versus explicación causal. ¡Y bienvenido al sitio! Espero ver muchas más de sus contribuciones en el futuro.
whuber

Continúa: 3. Rothman KJ No se necesitan ajustes para comparaciones múltiples. Epidemiology 1990; Vol. 1, No. 1: 43-46 4. Marshall JR Dragado de datos y notabilidad. Epidemiology 1990; Vol. 1, No. 1: 5-7 5. Groenlandia S. y Robins JM Empirical-Bayes ajustes para comparaciones múltiples a veces son útiles. Epidemiology 1991; Vol. 2, No. 4: 244-251
Brenden el

(+1) Te puede interesar el siguiente hilo: stats.stackexchange.com/questions/3252/… . Parece que compartimos muchos enlaces en común :-)
chl

6

Hay buenas respuestas aquí. Permítanme agregar un par de pequeños puntos que no veo cubiertos en otra parte.

Primero, ¿cuál es la naturaleza de sus variables de respuesta? Más específicamente, ¿se entienden relacionados entre sí? Solo debe hacer dos regresiones múltiples separadas si se entiende que son independientes (teóricamente) / si los residuos de los dos modelos son independientes (empíricamente). De lo contrario, debe considerar una regresión multivariada. ('Multivariante' significa> 1 variable de respuesta; 'múltiple' significa> 1 variable predictiva).

F


0

Puede hacer una regresión aparentemente no relacionada y usar una prueba F. Ponga sus datos en una forma como esta:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

para que los predictores para su primer resultado tengan sus valores cuando ese resultado sea la variable y y 0 en caso contrario y viceversa. Entonces su y es una lista de ambos resultados. P11 y P12 son los dos predictores para el primer resultado y P21 y P22 son los dos predictores para el segundo resultado. Si el sexo, por ejemplo, es un predictor para ambos resultados, su uso para predecir el resultado 1 debe estar en una variable / columna separada al predecir el resultado 2. Esto permite que su regresión tenga diferentes pendientes / impactos para el sexo para cada resultado.

En este marco, puede utilizar los procedimientos de prueba estándar de F.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.