Reglas generales para el tamaño mínimo de muestra para regresión múltiple

72

En el contexto de una propuesta de investigación en ciencias sociales, me hicieron la siguiente pregunta:

Siempre he superado los 100 + m (donde m es el número de predictores) al determinar el tamaño mínimo de muestra para la regresión múltiple. ¿Es esto apropiado?

Recibo muchas preguntas similares, a menudo con diferentes reglas generales. También he leído muchas reglas generales en varios libros de texto. A veces me pregunto si la popularidad de una regla en términos de citas se basa en qué tan bajo se establece el estándar. Sin embargo, también soy consciente del valor de las buenas heurísticas para simplificar la toma de decisiones.

Preguntas:

¿Cuál es la utilidad de reglas básicas simples para tamaños de muestra mínimos dentro del contexto de investigadores aplicados que diseñan estudios de investigación?
¿Sugeriría una regla general alternativa para el tamaño mínimo de muestra para regresión múltiple?
Alternativamente, ¿qué estrategias alternativas sugeriría para determinar el tamaño mínimo de muestra para la regresión múltiple? En particular, sería bueno si el valor se asigna al grado en que cualquier estrategia puede ser aplicada fácilmente por un no estadístico.

— Jeromy Anglim
fuente

36

No soy fanático de las fórmulas simples para generar tamaños de muestra mínimos. Como mínimo, cualquier fórmula debe considerar el tamaño del efecto y las preguntas de interés. Y la diferencia entre ambos lados de un límite es mínima.

Tamaño de muestra como problema de optimización

Las muestras más grandes son mejores.
El tamaño de la muestra a menudo se determina por consideraciones pragmáticas.
El tamaño de la muestra debe considerarse como una consideración en un problema de optimización en el que el costo en tiempo, dinero, esfuerzo, etc. de obtener participantes adicionales se compara con los beneficios de tener participantes adicionales.

Una regla general áspera

En términos de reglas generales muy toscas dentro del contexto típico de los estudios psicológicos observacionales que involucran cosas como pruebas de habilidad, escalas de actitud, medidas de personalidad, etc., a veces pienso en:

n = 100 como adecuado
n = 200 tan bueno
n = 400 + como genial

Estas reglas generales se basan en los intervalos de confianza del 95% asociados con las correlaciones en estos niveles respectivos y el grado de precisión que me gustaría comprender teóricamente las relaciones de interés. Sin embargo, es solo una heurística.

G Power 3

Normalmente uso G-Power 3 para calcular la potencia en función de varios supuestos, vea mi publicación .
Vea este tutorial del sitio de G Power 3 específico para regresión múltiple
El Power Primer también es una herramienta útil para investigadores aplicados.

La regresión múltiple prueba múltiples hipótesis

Cualquier pregunta de análisis de potencia requiere la consideración de los tamaños del efecto.
El análisis de potencia para la regresión múltiple se hace más complicado por el hecho de que existen múltiples efectos, incluido el r cuadrado general y uno para cada coeficiente individual. Además, la mayoría de los estudios incluyen más de una regresión múltiple. Para mí, esta es una razón más para confiar más en la heurística general y pensar en el tamaño de efecto mínimo que desea detectar.
En relación con la regresión múltiple, a menudo pensaré más en términos del grado de precisión al estimar la matriz de correlación subyacente.

Precisión en la estimación de parámetros

También me gusta la discusión de Ken Kelley y sus colegas sobre la precisión en la estimación de parámetros.

Vea el sitio web de Ken Kelley para publicaciones
Como mencionó @Dmitrij, Kelley y Maxwell (2003) PDF GRATIS tienen un artículo útil.
Ken Kelley desarrolló el MBESSpaquete en R para realizar análisis que relacionan el tamaño de la muestra con la precisión en la estimación de parámetros.

— Jeromy Anglim
fuente

17

No prefiero pensar en esto como un problema de poder, sino más bien hacer la pregunta "¿qué tan grande debe ser para que se pueda confiar en el aparente "? Una forma de abordarlo es considerar la razón o diferencia entre y , siendo este último el ajustado dado por y formando una estimación más imparcial de "verdadero" . $n$ $R^2$ $R^2$ $R_{adj}^{2}$ $R^2$ $1 - (1 - R^{2})\frac{n-1}{n-p-1}$ $R^2$

Se puede usar algún código R para resolver el factor de que debe ser tal que es solo un factor menor que o solo es menor en . $p$ $n-1$ $R_{adj}^{2}$ $k$ $R^2$ $k$

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

ingrese la descripción de la imagen aquí Leyenda: Degradación en que logra una caída relativa de a por un factor relativo indicado (panel izquierdo, 3 factores) o diferencia absoluta (panel derecho, 6 decretos). $R^{2}$ $R^{2}$ $R^{2}_{adj}$

Si alguien ha visto esto ya impreso, avíseme.

— Frank Harrell
fuente

1

+1. Sospecho que me falta algo bastante fundamental y obvio, pero ¿por qué deberíamos usar la capacidad de para estimar como criterio? Ya tenemos acceso a , incluso si es bajo. ¿Hay alguna manera de explicar por qué esta es la forma correcta de pensar sobre el mínimamente adecuado fuera del hecho de que hace una mejor estimación de ?

{\hat{R}}^{2}

$\hat R^2$

R^{2}

$R^2$

R_{a d j}^{2}

$R^2_{adj}$

N

$N$

N

$N$

{\hat{R}}^{2}

$\hat R^2$

R^{2}

$R^2$

— gung - Restablece a Monica

@FrankHarrell: mira aquí, el autor parece estar usando las parcelas 260-263 de la misma manera que las de tu publicación anterior.

— usuario603

55

Gracias por la referencia @gung esa es una buena pregunta. Una respuesta (débil) es que en algunos tipos de modelos no tenemos un , y tampoco tenemos un índice ajustado si se ha realizado una selección de variables. Pero la idea principal es que si es imparcial, es probable que otros índices de discriminación predictiva, como las medidas de correlación de rango, sean imparciales también debido a la adecuación del tamaño de la muestra y el sobreajuste mínimo.

R_{a d j}^{2}

$R^{2}_{adj}$

R^{2}

$R^2$

— Frank Harrell

12

(+1) para una pregunta crucial, en mi opinión.

En macroeconometría, generalmente tiene tamaños de muestra mucho más pequeños que en experimentos micro, financieros o sociológicos. Un investigador se siente bastante bien cuando puede proporcionar al menos estimaciones viables. Mi regla general menos personal posible es ( grados de libertad en un parámetro estimado). En otros campos de estudios aplicados, generalmente tiene más suerte con los datos (si no es demasiado costoso, simplemente recopile más puntos de datos) y puede preguntar cuál es el tamaño óptimo de una muestra (no solo el valor mínimo para tal). El último problema proviene del hecho de que más datos de baja calidad (ruidosos) no son mejores que una muestra más pequeña de datos de alta calidad. $4\cdot m$ $4$

La mayoría de los tamaños de muestra están vinculados al poder de las pruebas para la hipótesis que va a probar después de ajustar el modelo de regresión múltiple.

Hay una buena calculadora que podría ser útil para modelos de regresión múltiple y alguna fórmula detrás de escena. Creo que tal calculadora de priorato podría ser aplicada fácilmente por un no estadístico.

Probablemente el artículo de K.Kelley y SEMaxwell puede ser útil para responder las otras preguntas, pero primero necesito más tiempo para estudiar el problema.

— Dmitrij Celov
fuente

11

$m$ $m=500$ $500$ $600$

$m$ $m+1$ $n-m-1$ $m+1$ $n$ $O\left(\frac{m+1}{n}\right)$ $n=k(m+1)$ $k$ $O\left(\frac{1}{k}\right)$ $k$ $k$ $10-20$ $30\equiv\infty$ $1,2,\dots,26,27,28,29,\infty$

— probabilidadislogica
fuente

Usted dice que 10 a 20 es bueno, pero ¿esto también dependería del tamaño de la varianza del error (posiblemente en relación con otras cosas)? Por ejemplo, supongamos que solo hay una variable predictora. Si se supiera que la varianza del error fue realmente pequeña, entonces parece que 3 o 4 puntos de datos podrían ser suficientes para estimar de manera confiable la pendiente y la intercepción. Por otro lado, si se supiera que la varianza del error era enorme, incluso 50 puntos de datos podrían ser inadecuados. ¿Estoy malinterpretando algo?

— mark999

¿Podría por favor proporcionar alguna referencia para su ecuación sugerida n=k(m+1)?

— Sosi

6

En psicología:

$N > 50 + 8m$ $N > 104 + m$

Otras reglas que se pueden usar son ...

$50$

$10$ $30$

— adria
fuente

1

Tu primera 'regla' no tiene m.

— Dason

Su primera regla general se escribe como N = 50 + 8 m, aunque se cuestionó si el término 50 es realmente necesario

— Sosi

He agregado una nueva y más compleja regla general que tiene en cuenta el tamaño del efecto de la muestra. Esto también fue presentado por Green (1991).

— Sosi

2

¿Cuáles son las citas completas de las referencias Green (1991) y Harris (1985)?

— Hatshepsut

2

Estoy de acuerdo en que las calculadoras de potencia son útiles, especialmente para ver el efecto de diferentes factores en la potencia. En ese sentido, las calculadoras que incluyen más información de entrada son mucho mejores. Para la regresión lineal, me gusta la calculadora de regresión aquí que incluye factores como error en X, correlación entre X y más.

— Galit Shmueli
fuente

0

$R^2$

( pdf )

Por supuesto, como también lo reconoce el artículo, la imparcialidad (relativa) no implica necesariamente tener suficiente poder estadístico. Sin embargo, los cálculos de potencia y tamaño de muestra generalmente se realizan especificando los efectos esperados; En el caso de la regresión múltiple, esto implica una hipótesis sobre el valor de los coeficientes de regresión o sobre la matriz de correlación entre los regresores y el resultado. En la práctica, depende de la fuerza de la correlación de los regresores con el resultado y entre ellos (obviamente, cuanto más fuerte, mejor para la correlación con el resultado, mientras las cosas empeoran con la multicolinealidad). Por ejemplo, en el caso extremo de dos variables perfectamente colineales, no puede realizar la regresión independientemente del número de observaciones, e incluso con solo 2 covariables.

— Federico Tedeschi
fuente