Esta respuesta consta de dos partes principales: en primer lugar, usando interpolación lineal , y en segundo lugar, usando transformaciones para una interpolación más precisa. Los enfoques discutidos aquí son adecuados para el cálculo manual cuando tiene tablas limitadas disponibles, pero si está implementando una rutina de computadora para producir valores p, hay enfoques mucho mejores (si es tedioso cuando se hace a mano) que deberían usarse en su lugar.
Si supiera que el valor crítico del 10% (una cola) para una prueba z fue 1.28 y el valor crítico del 20% fue 0.84, una suposición aproximada del valor crítico del 15% estaría a medio camino entre - (1.28 + 0.84) / 2 = 1.06 (el valor real es 1.0364), y el valor del 12.5% podría adivinarse a medio camino entre eso y el valor del 10% (1.28 + 1.06) / 2 = 1.17 (valor real 1.15+). Esto es exactamente lo que hace la interpolación lineal, pero en lugar de "a mitad de camino entre", analiza cualquier fracción del camino entre dos valores.
Interpolación lineal univariante
Veamos el caso de la interpolación lineal simple.
Entonces, tenemos alguna función (digamos de X ) que creemos que es aproximadamente lineal cerca del valor que estamos tratando de aproximar, y tenemos un valor de la función a cada lado del valor que queremos, por ejemplo, así:
X8dieciséis20y9.3ydieciséis15,6
Los dos valores cuyas y 's conocemos están separados 12 (20-8). ¿Ves cómo el valor x (para el que queremos un valor y aproximado ) divide esa diferencia de 12 en la proporción 8: 4 (16-8 y 20-16)? Es decir, son 2/3 de la distancia desde el primer valor x hasta el último. Si la relación fuera lineal, el rango correspondiente de valores de y estaría en la misma proporción.XyXyX
Entonces debería ser aproximadamente lo mismo que16-8ydieciséis- 9.315,6 - 9,3 .16 - 820 - 8
Eso es ydieciséis- 9.315,6 - 9,3≈ 16 - 820 - 8
reorganizar:
ydieciséis≈ 9.3 + ( 15.6 - 9.3 ) 16 - 820 - 8= 13,5
Un ejemplo con tablas estadísticas: si tenemos una tabla t con los siguientes valores críticos para 12 df:
( 2 colas )α0,010,020,050,10t3,052,682,181,78
Queremos el valor crítico de t con 12 df y un alfa de dos colas de 0.025. Es decir, interpolamos entre la fila 0.02 y la fila 0.05 de esa tabla:
α0,020,0250,05t2,68?2,18
El valor en " " Es el valor que deseamos utilizar la interpolación lineal. (Por me refiero al punto del cdf inverso de una distribución .)t 0.025 t 0.025 1 - 0.025 / 2 t 12?t0,025t0,0251 - 0.025 / 2t12
Como antes, divide el intervalo de a en la proporción a (es decir, ) y el valor desconocido debe dividir el rango a en la misma proporción; de manera equivalente, se produce del camino a lo largo del rango , por lo que el valor desconocido debe ocurrir del camino a lo largo del rango .0.02 0.05 ( 0.025 - 0.02 ) ( 0.05 - 0.025 ) 1 : 5 t t 2.68 2.18 0.025 ( 0.025 - 0.02 ) / ( 0.05 - 0.02 ) = 1 /0,0250,020,05( 0.025 - 0.02 )(0.05−0.025)1:5tt2.682.180.025x t 1 / 6 t(0.025−0.02)/(0.05−0.02)=1/6xt1/6t
Eso es o equivalentet0.025−2.682.18−2.68≈0.025−0.020.05−0.02
t0.025≈2.68+(2.18−2.68)0.025−0.020.05−0.02=2.68−0.516≈2.60
La respuesta real es ... que no está particularmente cerca porque la función que estamos aproximando no es muy cercana a la lineal en ese rango (más cerca lo está).2.56α=0.5
Mejores aproximaciones a través de la transformación.
Podemos reemplazar la interpolación lineal por otras formas funcionales; en efecto, nos transformamos a una escala donde la interpolación lineal funciona mejor. En este caso, en la cola, muchos valores críticos tabulados son más lineales que el del nivel de significancia. Después de tomar s, simplemente aplicamos interpolación lineal como antes. Probemos eso en el ejemplo anterior:loglog
α0.020.0250.05log(α)−3.912−3.689−2.996t2.68t0.0252.18
Ahora
t0.025−2.682.18−2.68≈=log(0.025)−log(0.02)log(0.05)−log(0.02)−3.689−−3.912−2.996−−3.912
o equivalente
t0.025≈=2.68+(2.18−2.68)−3.689−−3.912−2.996−−3.9122.68−0.5⋅0.243≈2.56
Lo cual es correcto para el número de cifras citado. Esto se debe a que, cuando transformamos la escala x logarítmicamente, la relación es casi lineal:
De hecho, visualmente la curva (gris) se encuentra perfectamente en la parte superior de la línea recta (azul).
En algunos casos, el logit del nivel de significancia ( ) puede funcionar bien en un rango más amplio, pero generalmente no es necesario (generalmente solo nos interesan los valores críticos precisos cuando es lo suficientemente pequeño como para que funcione bastante bien).logit(α)=log(α1−α)=log(11−α−1)αlog
Interpolación a través de diferentes grados de libertad.
t tablas , chi-cuadrado y también tienen grados de libertad, donde no se tabulan todos los valores df ( -). Los valores críticos en su mayoría no están representados con precisión por interpolación lineal en el df. De hecho, a menudo es más probable que los valores tabulados sean lineales en el recíproco de df, .Fν†1/ν
(En las tablas antiguas, a menudo vería una recomendación para trabajar con : la constante en el numerador no hace ninguna diferencia, pero era más conveniente en los días previos a la calculadora porque 120 tiene muchos factores, por lo que a menudo es un número entero, lo que hace que el cálculo sea un poco más simple).120/ν120/ν
Así es como se realiza la interpolación inversa en valores críticos del 5% de entre y . Es decir, solo los puntos finales participan en la interpolación en . Por ejemplo, para calcular el valor crítico para , tomamos (y observamos que aquí representa el inverso del cdf):F4,νν=601201/νν=80F
F4,80,.95≈F4,60,.95+1/80−1/601/120−1/60⋅(F4,120,.95−F4,60,.95)
(Compare con el diagrama aquí )
† Principalmente pero no siempre. Aquí hay un ejemplo donde la interpolación lineal en df es mejor, y una explicación de cómo deducir de la tabla que la interpolación lineal será precisa.
Aquí hay un pedazo de una mesa de chi-cuadrado
Probability less than the critical value
df 0.90 0.95 0.975 0.99 0.999
______ __________________________________________________
40 51.805 55.758 59.342 63.691 73.402
50 63.167 67.505 71.420 76.154 86.661
60 74.397 79.082 83.298 88.379 99.607
70 85.527 90.531 95.023 100.425 112.317
Imaginemos que deseamos encontrar el valor crítico del 5% (percentiles 95) para 57 grados de libertad.
Mirando de cerca, vemos que los valores críticos del 5% en la tabla progresan casi linealmente aquí:
(la línea verde une los valores para 50 y 60 df; puede ver que toca los puntos para 40 y 70)
Entonces la interpolación lineal funcionará muy bien. Pero, por supuesto, no tenemos tiempo para dibujar el gráfico; ¿Cómo decidir cuándo utilizar la interpolación lineal y cuándo intentar algo más complicado?
Además de los valores a cada lado del que buscamos, tome el siguiente valor más cercano (70 en este caso). Si el valor tabulado del medio (el de df = 60) es cercano a lineal entre los valores finales (50 y 70), entonces la interpolación lineal será adecuada. En este caso, los valores están equiespaciados, por lo que es especialmente fácil: ¿está cerca de ?(x50,0.95+x70,0.95)/2x60,0.95
Encontramos que , que en comparación con el valor real de 60 df, 79.082, podemos ver que tiene una precisión de casi tres cifras completas, lo que generalmente es bastante bueno para la interpolación, por lo que en este caso, te quedarías con la interpolación lineal; Con el paso más fino para el valor que necesitamos ahora esperaríamos tener una precisión de 3 cifras efectiva.(67.505+90.531)/2=79.018
Entonces obtenemos: ox−67.50579.082−67.505≈57−5060−50
x≈67.505+(79.082−67.505)⋅57−5060−50≈75.61 .
El valor real es 75.62375, por lo que obtuvimos 3 cifras de precisión y solo obtuvimos 1 en la cuarta cifra.
Aún se puede obtener una interpolación más precisa mediante el uso de métodos de diferencias finitas (en particular, a través de diferencias divididas), pero esto es probablemente excesivo para la mayoría de los problemas de prueba de hipótesis.
Si sus grados de libertad van más allá de los extremos de su tabla, esta pregunta analiza ese problema.