¿Pueden los grados de libertad ser un número no entero?


27

Cuando uso GAM, me da un DF residual de 26.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero?

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
En general, sí, df puede ser un número de coma flotante.
David Lane,

66
Probablemente quieras preguntar sobre un número real (o un número que no sea entero); un número de coma flotante es un concepto de computadora (una forma de aproximar números reales) que se relaciona con la implementación, pero realmente se está preguntando acerca de la idea matemática subyacente (y, por lo tanto, es mejor hacer una pregunta matemática). A menudo se encuentran situaciones en las que (por una razón u otra, no siempre es buena) una cantidad que es conceptualmente un número entero, sin embargo, en la implementación se almacena como un número de coma flotante. Sugiero "¿Puede un modelo tener grados de libertad no enteros?" por el título
Glen_b: reinstala a Monica

Respuestas:


40

Los grados de libertad no son enteros en varios contextos. De hecho, en algunas circunstancias, puede establecer que los grados de libertad para ajustar los datos para algunos modelos particulares deben estar entre algún valor k y k+1 .

Generalmente pensamos en los grados de libertad como el número de parámetros libres, pero hay situaciones en las que los parámetros no son completamente libres y pueden ser difíciles de contar. Esto puede suceder al suavizar / regularizar, por ejemplo.

Los casos de regresión ponderada localmente / métodos de kernel y splines suavizados son ejemplos de tal situación: un número total de parámetros libres no es algo que pueda contar fácilmente sumando predictores, por lo que se necesita una idea más general de los grados de libertad.

gamy^=UNAytr(UNA)tr(UNAUNAT)tr(2UNA-UNAUNAT)tr(UNA)XUNA

tr(UNA)

yoy^yoyyotr(UNA)y^y^yoyyo

Para modelos como los instalados gam, esas diversas medidas generalmente no son enteras.

(Recomiendo encarecidamente leer la discusión de estas referencias sobre este tema, aunque la historia puede volverse bastante más complicada en algunas situaciones. Ver, por ejemplo, [4])

[1] Hastie, T. y Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.

[2] Hastie, T., Tibshirani, R. y Friedman, J. (2009),
The Elements of Statistical Learning: Data Mining, Inference, and Prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
"Sobre la medición y corrección de los efectos de la minería de datos y la selección de modelos",
Journal of the American Statistical Association , vol. 93, núm. 441, págs. 120-131

[4] Janson, L., Fithian, W. y Hastie, T. (2013),
"Grados efectivos de libertad: una metáfora defectuosa"
https://arxiv.org/abs/1312.7851


77
No es relevante para este caso, pero la prueba t de Welch de dos muestras cuando las varianzas son desiguales puede tener un número no entero de grados de libertad.
Michael R. Chernick

55
Como puede el epsilon corregido df en medidas repetidas ANOVA.
David Lane,

2
Otra referencia es statweb.stanford.edu/~tibs/ElemStatLearn/printings/… sección 5.4.1 Grados de libertad y matrices más suaves
Adrian

1
@Adrian gracias; Había estado lanzando si agregar solo esa referencia (y en particular si mencionar la ecuación 5.16 en la sección a la que apunta). Llegué a la conclusión de que es una buena idea agregarlo.
Glen_b -Reinstalar Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.