comprensión del valor p en regresión lineal múltiple


12

Con respecto al valor p del análisis de regresión lineal múltiple, a continuación se muestra la introducción del sitio web de Minitab .

El valor p para cada término prueba la hipótesis nula de que el coeficiente es igual a cero (sin efecto). Un valor p bajo (<0.05) indica que puede rechazar la hipótesis nula. En otras palabras, un predictor que tiene un valor p bajo es probable que sea una adición significativa a su modelo porque los cambios en el valor del predictor están relacionados con cambios en la variable de respuesta.

Por ejemplo, tengo un modelo MLR resultante como . y la salida se muestra a continuación. Entonces se puede calcular una utilizando esta ecuación.y=0.46753X10.2668X2+1.6193X3+4.5424X4+14.48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Según la introducción anterior, la hipótesis nula es que el coeficiente es igual a 0. Entiendo que el coeficiente, por ejemplo el coeficiente de , se establecerá como 0 y otro y se calculará como . Luego se realiza una prueba t pareada para e , pero el valor p de esta prueba t es 6.9e-12, que no es igual a 0.1292 (valor p del coeficiente de .X4y2=0.46753X10.2668X2+1.6193X3+0X4+14.48yy2X4

¿Alguien puede ayudar en la comprensión correcta? ¡Muchas gracias!


¿Puedes mostrar el resultado de la rutina de regresión?
Aksakal

Su descripción del cálculo del valor p no es estándar. ¿Por qué crees que debería calcularse de la manera que lo describes? El valor p en la salida se calcula a partir de la matriz de parámetros Var-Cov. Si desea ejecutar la prueba de restricción, como Wald, entonces no es la forma en que lo describe. Habría que volver a estimar el modelo con 3 variables, obtener loglikelihood etc.
Aksakal

1
Según esa introducción, solo tiene una variable "significativa", la "intercepción", porque solo su valor p es pequeño. Para ir más allá de la práctica ingenua y engañosa en la cita, debe aprender más sobre la regresión múltiple. Para ver qué se puede aprender al respecto, considere explorar temas relevantes en nuestro sitio .
whuber

2
Verifique las respuestas a estas dos preguntas: - stats.stackexchange.com/questions/5135/… y - stats.stackexchange.com/questions/126179/… Me ayudaron a comprender cómo se calculan los valores p, espero que los encuentre útil también.
Giacomo

Respuestas:


7

Esto es incorrecto por un par de razones:

  1. El modelo "sin" X4 no necesariamente tendrá las mismas estimaciones de coeficientes para los otros valores. Ajuste el modelo reducido y compruébelo usted mismo.

  2. La prueba estadística para el coeficiente no se refiere a los valores "medios" de Y obtenidos a partir de 2 predicciones. La predicha siempre tendrá la misma gran media, por lo tanto, tendrá un valor p de la prueba t igual a 0.5. Lo mismo vale para los residuos. Su prueba t tenía el valor incorrecto según el punto anterior.Y

  3. La prueba estadística que se realiza para la significación estadística del coeficiente es una prueba t de una muestra. Esto es confuso ya que no tenemos una "muestra" de coeficientes múltiples para X4, pero tenemos una estimación de las propiedades de distribución de dicha muestra utilizando el teorema del límite central. El error medio y estándar describe la ubicación y la forma de dicha distribución limitante. Si toma la columna "Est" y divide por "SE" y compara con una distribución normal estándar, esto le da los valores p en la cuarta columna.

  4. Un cuarto punto: una crítica a la página de ayuda de minitab. Tal archivo de ayuda no podría, en un párrafo, resumir años de entrenamiento estadístico, por lo que no necesito lidiar con todo. Pero decir que un "predictor" es "una contribución importante" es vago y probablemente incorrecto. La justificación para elegir qué variables incluir en un modelo multivariante es sutil y se basa en el razonamiento científico y no en la inferencia estadística.


0

Su interpretación inicial de los valores p parece correcta, que es que solo la intersección tiene un coeficiente que es significativamente diferente de 0. Notará que la estimación del coeficiente para x4 todavía es bastante alta, pero hay suficiente error de que no es significativamente diferente de 0.

Su prueba t pareada de y1 e y2 sugiere que los modelos son diferentes entre sí. Eso es de esperar, en un modelo incluyó un coeficiente grande pero impreciso que está contribuyendo bastante a su modelo. No hay razón para pensar que el valor p de estos modelos que son diferentes entre sí debería ser el mismo que el valor p del coeficiente de x4 sea diferente de 0.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.