Debe pensar en lo que quiere decir con "límite". Hay límites, como cuando tienes más predictores que casos, te encuentras con problemas en la estimación de parámetros (mira la pequeña simulación R al final de esta respuesta).
Sin embargo, me imagino que está hablando más sobre límites suaves relacionados con el poder estadístico y las buenas prácticas estadísticas. En este caso, el lenguaje de los "límites" no es realmente apropiado. Por el contrario, los tamaños de muestra más grandes tienden a hacer que sea más razonable tener más predictores y el umbral de cuántos predictores es razonable posiblemente caiga en un continuo de razonabilidad. Puede encontrar relevante la discusión de las reglas generales para el tamaño de la muestra en regresión múltiple , ya que muchas de estas reglas generales hacen referencia al número de predictores.
Algunos puntos
- Si le preocupa más la predicción general que la significación estadística de los predictores individuales, entonces probablemente sea razonable incluir más predictores que si le preocupa la significación estadística de los predictores individuales.
- Si le preocupa más probar un modelo estadístico específico que se relaciona con su pregunta de investigación (por ejemplo, como es común en muchas aplicaciones de ciencias sociales), presumiblemente tiene razones para incluir predictores particulares. Sin embargo, también puede tener oportunidades de ser selectivo en los predictores que incluye (por ejemplo, si tiene múltiples variables que miden una construcción similar, solo puede incluir una de ellas). Cuando se realizan pruebas de modelo basadas en la teoría, hay muchas opciones, y la decisión sobre qué predictores incluir implica una estrecha conexión entre su teoría y la pregunta de investigación.
- A menudo no veo investigadores que utilicen correcciones de bonferroni que se apliquen a pruebas de significación de coeficientes de regresión. Una razón razonable para esto podría ser que los investigadores están más interesados en evaluar las propiedades generales del modelo.
- Si está interesado en evaluar la importancia relativa de los predictores, me resulta útil examinar tanto la relación bivariada entre el predictor y el resultado, como la relación entre el predictor y el control de resultados para otros predictores. Si incluye muchos predictores, a menudo es más probable que incluya predictores que estén altamente interrelacionados. En tales casos, la interpretación de los índices de importancia basados tanto en bivariados como en modelos puede ser útil, ya que una variable importante en un sentido bivariado podría estar oculta en un modelo por otros predictores correlacionados ( detallo más aquí con enlaces ).
Una pequeña simulación R
Escribí esta pequeña simulación para resaltar la relación entre el tamaño de la muestra y la estimación de parámetros en regresión múltiple.
set.seed(1)
fitmodel <- function(n, k) {
# n: sample size
# k: number of predictors
# return linear model fit for given sample size and k predictors
x <- data.frame(matrix( rnorm(n*k), nrow=n))
names(x) <- paste("x", seq(k), sep="")
x$y <- rnorm(n)
lm(y~., data=x)
}
La fitmodel
función toma dos argumentos n
para el tamaño de la muestra y k
para el número de predictores. No cuento la constante como predictor, pero se estima. Luego genero datos aleatorios y ajusta un modelo de regresión que predice una variable ay de k
las variables predictoras y devuelve el ajuste.
Dado que mencionó en su pregunta que estaba interesado en si 10 predictores son demasiado, las siguientes llamadas a funciones muestran lo que sucede cuando el tamaño de la muestra es 9, 10, 11 y 12 respectivamente. Es decir, el tamaño de la muestra es uno menos que el número de predictores a dos más que el número de predictores
summary(fitmodel(n=9, k=10))
summary(fitmodel(n=10, k=10))
summary(fitmodel(n=11, k=10))
summary(fitmodel(n=12, k=10))
> resumen (fitmodel (n = 9, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!
Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.31455 NA NA NA
x1 0.34139 NA NA NA
x2 -0.45924 NA NA NA
x3 0.42474 NA NA NA
x4 -0.87727 NA NA NA
x5 -0.07884 NA NA NA
x6 -0.03900 NA NA NA
x7 1.08482 NA NA NA
x8 0.62890 NA NA NA
x9 NA NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 8 and 0 DF, p-value: NA
El tamaño de la muestra es uno menos que el número de predictores. Solo es posible estimar 9 parámetros, uno de los cuales es la constante.
> resumen (fitmodel (n = 10, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!
Coefficients: (1 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1724 NA NA NA
x1 -0.3615 NA NA NA
x2 -0.4670 NA NA NA
x3 -0.6883 NA NA NA
x4 -0.1744 NA NA NA
x5 -1.0331 NA NA NA
x6 0.3886 NA NA NA
x7 -0.9886 NA NA NA
x8 0.2778 NA NA NA
x9 0.4616 NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 9 and 0 DF, p-value: NA
El tamaño de la muestra es igual al número de predictores. Solo es posible estimar 10 parámetros, uno de los cuales es la constante.
> resumen (fitmodel (n = 11, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 11 residuals are 0: no residual degrees of freedom!
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.9638 NA NA NA
x1 -0.8393 NA NA NA
x2 -1.5061 NA NA NA
x3 -0.4917 NA NA NA
x4 0.3251 NA NA NA
x5 4.4212 NA NA NA
x6 0.7614 NA NA NA
x7 -0.4195 NA NA NA
x8 0.2142 NA NA NA
x9 -0.9264 NA NA NA
x10 -1.2286 NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 10 and 0 DF, p-value: NA
El tamaño de la muestra es uno más que el número de predictores. Todos los parámetros se estiman, incluida la constante.
> resumen (fitmodel (n = 12, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
1 2 3 4 5 6 7 8 9 10 11
0.036530 -0.042154 -0.009044 -0.117590 0.171923 -0.007976 0.050542 -0.011462 0.010270 0.000914 -0.083533
12
0.001581
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.14680 0.11180 1.313 0.4144
x1 0.02498 0.09832 0.254 0.8416
x2 1.01950 0.13602 7.495 0.0844 .
x3 -1.76290 0.26094 -6.756 0.0936 .
x4 0.44832 0.16283 2.753 0.2218
x5 -0.76818 0.15651 -4.908 0.1280
x6 -0.33209 0.18554 -1.790 0.3244
x7 1.62276 0.21562 7.526 0.0841 .
x8 -0.47561 0.18468 -2.575 0.2358
x9 1.70578 0.31547 5.407 0.1164
x10 3.25415 0.46447 7.006 0.0903 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2375 on 1 degrees of freedom
Multiple R-squared: 0.995, Adjusted R-squared: 0.9452
F-statistic: 19.96 on 10 and 1 DF, p-value: 0.1726
El tamaño de la muestra es dos veces mayor que el número de predictores, y finalmente es posible estimar el ajuste del modelo general.