¿Cómo encuentro valores no dados en (interpolar en) tablas estadísticas?

A menudo las personas usan programas para obtener valores p, pero a veces, por cualquier razón, puede ser necesario obtener un valor crítico de un conjunto de tablas.

Dada una tabla estadística con un número limitado de niveles de significación y un número limitado de grados de libertad, ¿cómo obtengo valores críticos aproximados en otros niveles de significación o grados de libertad (como con tablas $t$ , chi-cuadrado o $F$ )? ?

Es decir, ¿cómo encuentro los valores "entre" los valores en una tabla?

— Glen_b -Reinstate a Monica
fuente

Esta respuesta consta de dos partes principales: en primer lugar, usando interpolación lineal , y en segundo lugar, usando transformaciones para una interpolación más precisa. Los enfoques discutidos aquí son adecuados para el cálculo manual cuando tiene tablas limitadas disponibles, pero si está implementando una rutina de computadora para producir valores p, hay enfoques mucho mejores (si es tedioso cuando se hace a mano) que deberían usarse en su lugar.

Si supiera que el valor crítico del 10% (una cola) para una prueba z fue 1.28 y el valor crítico del 20% fue 0.84, una suposición aproximada del valor crítico del 15% estaría a medio camino entre - (1.28 + 0.84) / 2 = 1.06 (el valor real es 1.0364), y el valor del 12.5% podría adivinarse a medio camino entre eso y el valor del 10% (1.28 + 1.06) / 2 = 1.17 (valor real 1.15+). Esto es exactamente lo que hace la interpolación lineal, pero en lugar de "a mitad de camino entre", analiza cualquier fracción del camino entre dos valores.

Interpolación lineal univariante

Veamos el caso de la interpolación lineal simple.

Entonces, tenemos alguna función (digamos de $x$ ) que creemos que es aproximadamente lineal cerca del valor que estamos tratando de aproximar, y tenemos un valor de la función a cada lado del valor que queremos, por ejemplo, así:

\begin{array}{cc} x & y \\ 8 & 9.3 \\ 16 & y_{16} \\ 20 & 15.6 \end{array}

$\begin{array}{ c c } x & y\\ 8 & 9.3\\ 16 & y_{16}\\ 20 & 15.6\\ \end{array}$

Los dos valores cuyas 's conocemos están separados 12 (20-8). ¿Ves cómo el valor (para el que queremos un valor aproximado ) divide esa diferencia de 12 en la proporción 8: 4 (16-8 y 20-16)? Es decir, son 2/3 de la distancia desde el primer valor hasta el último. Si la relación fuera lineal, el rango correspondiente de valores de y estaría en la misma proporción. $x$ $y$ $x$ $y$ $x$

Interpolación linear

Entonces debería ser aproximadamente lo mismo que $\frac{y_{16} - 9.3}{15.6 - 9.3}$ . $\frac{16-8}{20-8}$

Eso es $\frac{y_{16} - 9.3}{15.6 - 9.3} \approx \frac{16-8}{20-8}$

reorganizar:

$y_{16} \approx 9.3 + (15.6 - 9.3) \frac{16-8}{20-8} = 13.5$

Un ejemplo con tablas estadísticas: si tenemos una tabla t con los siguientes valores críticos para 12 df:

\begin{array}{cc} (2 -tail) \\ α & t \\ 0.01 & 3.05 \\ 0.02 & 2.68 \\ 0.05 & 2.18 \\ 0.10 & 1.78 \end{array}

$\begin{array}{ c c } (2\text{-tail})& \\ α & t\\ 0.01 & 3.05\\ 0.02 & 2.68\\ 0.05 & 2.18\\ 0.10 & 1.78 \end{array}$

Queremos el valor crítico de t con 12 df y un alfa de dos colas de 0.025. Es decir, interpolamos entre la fila 0.02 y la fila 0.05 de esa tabla:

\begin{array}{cc} α & t \\ 0.02 & 2.68 \\ 0.025 & ? \\ 0.05 & 2.18 \end{array}

$\begin{array}{ c c } α & t\\ 0.02 & 2.68\\ 0.025 & \text{?}\\ 0.05 & 2.18\\ \end{array}$

El valor en " " Es el valor que deseamos utilizar la interpolación lineal. (Por me refiero al punto del cdf inverso de una distribución .) $\text{?}$ $t_{0.025}$ $t_{0.025}$ $1-0.025/2$ $t_{12}$

Como antes, divide el intervalo de a en la proporción a (es decir, ) y el valor desconocido debe dividir el rango a en la misma proporción; de manera equivalente, se produce del camino a lo largo del rango , por lo que el valor desconocido debe ocurrir del camino a lo largo del rango . $0.025$ $0.02$ $0.05$ $(0.025-0.02)$ $(0.05-0.025)$ $1:5$ $t$ $t$ $2.68$ $2.18$ $0.025$ $(0.025-0.02)/(0.05-0.02) = 1/6$ $x$ $t$ $1/6$ $t$

Eso es o equivalente $\frac{t_{0.025}-2.68}{2.18-2.68} \approx \frac{0.025-0.02}{0.05-0.02}$

$t_{0.025} \approx 2.68 + (2.18-2.68) \frac{0.025-0.02}{0.05-0.02} = 2.68 - 0.5 \frac{1}{6} \approx 2.60$

La respuesta real es ... que no está particularmente cerca porque la función que estamos aproximando no es muy cercana a la lineal en ese rango (más cerca lo está). $2.56$ $\alpha = 0.5$

interpolación lineal de valor crítico en tablas t

Mejores aproximaciones a través de la transformación.

Podemos reemplazar la interpolación lineal por otras formas funcionales; en efecto, nos transformamos a una escala donde la interpolación lineal funciona mejor. En este caso, en la cola, muchos valores críticos tabulados son más lineales que el del nivel de significancia. Después de tomar s, simplemente aplicamos interpolación lineal como antes. Probemos eso en el ejemplo anterior: $\log$ $\log$

\begin{array}{cc} α & \log (α) & t \\ 0.02 & - 3.912 & 2.68 \\ 0.025 & - 3.689 & t_{0.025} \\ 0.05 & - 2.996 & 2.18 \end{array}

$\begin{array}{ c c } α & \log(α)& t\\ 0.02 & -3.912 & 2.68\\ 0.025& -3.689 & t_{0.025}\\ 0.05 & -2.996 & 2.18\\ \end{array}$

Ahora

\begin{array}{rcl} \frac{t_{0.025} - 2.68}{2.18 - 2.68} & \approx & \frac{\log (0.025) - \log (0.02)}{\log (0.05) - \log (0.02)} \\ = & \frac{- 3.689 - - 3.912}{- 2.996 - - 3.912} \end{array}

$\begin{eqnarray} \frac{t_{0.025}-2.68}{2.18-2.68} &\approx& \frac{\log(0.025)-\log(0.02)}{\log(0.05)-\log(0.02)} \\ &=& \frac{-3.689 - -3.912}{-2.996 - -3.912}\\ \end{eqnarray}$

o equivalente

\begin{array}{rcl} t_{0.025} & \approx & 2.68 + (2.18 - 2.68) \frac{- 3.689 - - 3.912}{- 2.996 - - 3.912} \\ = & 2.68 - 0.5 \cdot 0.243 \approx 2.56 \end{array}

$\begin{eqnarray} t_{0.025} &\approx& 2.68 + (2.18-2.68) \frac{-3.689 - -3.912}{-2.996 - -3.912}\\ &=& 2.68 - 0.5 \cdot 0.243 \approx 2.56 \end{eqnarray}$

Lo cual es correcto para el número de cifras citado. Esto se debe a que, cuando transformamos la escala x logarítmicamente, la relación es casi lineal:

interpolación lineal en log alfa
De hecho, visualmente la curva (gris) se encuentra perfectamente en la parte superior de la línea recta (azul).

En algunos casos, el logit del nivel de significancia ( ) puede funcionar bien en un rango más amplio, pero generalmente no es necesario (generalmente solo nos interesan los valores críticos precisos cuando es lo suficientemente pequeño como para que funcione bastante bien). $\text{logit}(\alpha)=\log(\frac{α}{1-α})=\log(\frac{1}{1-α}-1)$ $\alpha$ $\log$

Interpolación a través de diferentes grados de libertad.

$t$ tablas , chi-cuadrado y también tienen grados de libertad, donde no se tabulan todos los valores df ( -). Los valores críticos en su mayoría no están representados con precisión por interpolación lineal en el df. De hecho, a menudo es más probable que los valores tabulados sean lineales en el recíproco de df, . $F$ $\nu$ $^\dagger$ $1/\nu$

(En las tablas antiguas, a menudo vería una recomendación para trabajar con : la constante en el numerador no hace ninguna diferencia, pero era más conveniente en los días previos a la calculadora porque 120 tiene muchos factores, por lo que a menudo es un número entero, lo que hace que el cálculo sea un poco más simple). $120/\nu$ $120/\nu$

Así es como se realiza la interpolación inversa en valores críticos del 5% de entre y . Es decir, solo los puntos finales participan en la interpolación en . Por ejemplo, para calcular el valor crítico para , tomamos (y observamos que aquí representa el inverso del cdf): $F_{4,\nu}$ $\nu = 60$ $120$ $1/\nu$ $\nu=80$ $F$

F_{4, 80, .95} \approx F_{4, 60, .95} + \frac{1 / 80 - 1 / 60}{1 / 120 - 1 / 60} \cdot (F_{4, 120, .95} - F_{4, 60, .95})

$F_{4,80,.95} \approx F_{4,60,.95} + \frac{1/80 - 1/60}{1/120 - 1/60} \cdot (F_{4,120,.95}-F_{4,60,.95})$

inversión inversa en df

(Compare con el diagrama aquí )

$^\dagger$ Principalmente pero no siempre. Aquí hay un ejemplo donde la interpolación lineal en df es mejor, y una explicación de cómo deducir de la tabla que la interpolación lineal será precisa.

Aquí hay un pedazo de una mesa de chi-cuadrado

            Probability less than the critical value
 df           0.90      0.95     0.975      0.99     0.999
______   __________________________________________________

 40         51.805    55.758    59.342    63.691    73.402
 50         63.167    67.505    71.420    76.154    86.661
 60         74.397    79.082    83.298    88.379    99.607
 70         85.527    90.531    95.023   100.425   112.317

Imaginemos que deseamos encontrar el valor crítico del 5% (percentiles 95) para 57 grados de libertad.

Mirando de cerca, vemos que los valores críticos del 5% en la tabla progresan casi linealmente aquí:

(la línea verde une los valores para 50 y 60 df; puede ver que toca los puntos para 40 y 70)

Entonces la interpolación lineal funcionará muy bien. Pero, por supuesto, no tenemos tiempo para dibujar el gráfico; ¿Cómo decidir cuándo utilizar la interpolación lineal y cuándo intentar algo más complicado?

Además de los valores a cada lado del que buscamos, tome el siguiente valor más cercano (70 en este caso). Si el valor tabulado del medio (el de df = 60) es cercano a lineal entre los valores finales (50 y 70), entonces la interpolación lineal será adecuada. En este caso, los valores están equiespaciados, por lo que es especialmente fácil: ¿está cerca de ? $(x_{50,0.95}+x_{70,0.95})/2$ $x_{60,0.95}$

Encontramos que , que en comparación con el valor real de 60 df, 79.082, podemos ver que tiene una precisión de casi tres cifras completas, lo que generalmente es bastante bueno para la interpolación, por lo que en este caso, te quedarías con la interpolación lineal; Con el paso más fino para el valor que necesitamos ahora esperaríamos tener una precisión de 3 cifras efectiva. $(67.505+90.531)/2 = 79.018$

Entonces obtenemos: o $\frac{x-67.505}{79.082-67.505} \approx {57-50}{60-50}$

$x\approx 67.505+(79.082-67.505)\cdot {57-50}{60-50}\approx 75.61$ .

El valor real es 75.62375, por lo que obtuvimos 3 cifras de precisión y solo obtuvimos 1 en la cuarta cifra.

Aún se puede obtener una interpolación más precisa mediante el uso de métodos de diferencias finitas (en particular, a través de diferencias divididas), pero esto es probablemente excesivo para la mayoría de los problemas de prueba de hipótesis.

Si sus grados de libertad van más allá de los extremos de su tabla, esta pregunta analiza ese problema.

— Glen_b -Reinstate a Monica
fuente