Bajo la hipótesis nula de que las distribuciones son las mismas y que ambas muestras se obtienen al azar e independientemente de la distribución común, podemos calcular los tamaños de todas las pruebas 5×5 (deterministas) que se pueden hacer al comparar un valor de letra con otro. Algunas de estas pruebas parecen tener un poder razonable para detectar diferencias en las distribuciones.
Análisis
La definición original del resumen de 5 boletines de cualquier lote ordenado de números x1≤x2≤⋯≤xn es la siguiente [Tukey EDA 1977]:
Para cualquier número m=(i+(i+1))/2 en {(1+2)/2,(2+3)/2,…,(n−1+n)/2} definexm=(xi+xi+1)/2.
Deje i¯=n+1−i .
Sea m=(n+1)/2 y h=(⌊m⌋+1)/2.
El resumen de 5 letras es el conjunto {X−=x1,H−=xh,M=xm,H+=xh¯,X+=xn}. Sus elementos se conocen comomínimo, bisagra inferior, mediana, bisagra superiorymáximo,respectivamente.
Por ejemplo, en el lote de datos (−3,1,1,2,3,5,5,5,7,13,21) que puede calcular quen=12 ,m=13/2 , yh=7/2 , de donde
X−H−MH+X+=−3,=x7/2=(x3+x4)/2=(1+2)/2=3/2,=x13/2=(x6+x7)/2=(5+5)/2=5,=x7/2¯¯¯¯¯¯¯¯=x19/2=(x9+x10)/2=(5+7)/2=6,=x12=21.
Las bisagras están cerca (pero generalmente no son exactamente iguales) a los cuartiles. Si se utilizan cuartiles, nota que en general serán ponderados medios aritméticos de dos de las estadísticas de orden y por lo tanto caerá dentro de uno de los intervalos [xi,xi+1] donde i puede determinarse a partir n y el algoritmo utilizado para calcular los cuartiles. En general, cuando q está en un intervalo [i,i+1] escribiré libremente xq para referirme a una media ponderada de xi yxi+1 .
Con dos lotes de datos (xi,i=1,…,n) y (yj,j=1,…,m), hay dos resúmenes separados de cinco letras. Podemos probar la hipótesis nula de que ambos son muestras aleatorias iid de una distribución común F mediante la comparación de uno de los x -Cartas xq a uno de los y -Cartas yr . Por ejemplo, podríamos comparar la bisagra superior de xa la bisagra inferior de y para ver si x es significativamente menor que y . Esto lleva a una pregunta definitiva: cómo calcular esta posibilidad,
PrF(xq<yr).
Por fraccional q y r esto no es posible sin saber F . Sin embargo, porque xq≤x⌈q⌉ ey⌊r⌋≤yr,entoncesa fortiori
PrF(xq<yr)≤PrF(x⌈q⌉<y⌊r⌋).
De este modo, podemos obtener límites superiores universales (independientes de F ) en las probabilidades deseadas calculando la probabilidad de la mano derecha, que compara las estadísticas de órdenes individuales. La pregunta general frente a nosotros es
¿Cuál es la probabilidad de que el más alto de n valores será inferior a la r º más alto de m valores atraídos iid de una distribución común?qthnrthm
Incluso esto no tiene una respuesta universal a menos que descartemos la posibilidad de que la probabilidad esté demasiado concentrada en valores individuales: en otras palabras, debemos suponer que los lazos no son posibles. Esto significa que debe ser una distribución continua. Aunque esta es una suposición, es débil y no es paramétrica.F
Solución
La distribución no juega ningún papel en el cálculo, porque al volver a expresar todos los valores por medio de la transformada de probabilidad F , obtenemos nuevos lotesFF
X(F)=F(x1)≤F(x2)≤⋯≤F(xn)
y
Y(F)=F(y1)≤F(y2)≤⋯≤F(ym).
Además, esta reexpresión es monótona y creciente: preserva el orden y al hacerlo conserva el evento Como F es continuo, estos nuevos lotes se extraen de una distribución Uniforme [ 0 , 1 ] . Bajo esta distribución, y eliminando la ahora superflua " F " de la notación, encontramos fácilmente que x q tiene una Beta ( q , n + 1 - q )xq<yr.F[0,1]Fxq(q,n+1−q) distribución = Beta :( q, q¯)
Pr(xq≤x)=n!(n−q)!(q−1)!∫x0tq−1(1−t)n−qdt.
De manera similar, la distribución de es Beta ( r , m + 1 - r ) . Al realizar la doble integración sobre la región x q < y r podemos obtener la probabilidad deseada,yr(r,m+1−r)xq<yr
Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,q−n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n−q+1)
Como todos los valores son integrales, todos los valores Γ son realmente solo factoriales: Γ ( k ) = ( k - 1 ) ! = ( k - 1 ) ( k - 2 ) ⋯ ( 2 ) ( 1 ) para integral k ≥ 0.
La función poco conocida 3 ˜ F 2 es an,m,q,rΓΓ(k)=(k−1)!=(k−1)(k−2)⋯(2)(1)k≥0.3F~2Función hipergeométrica regularizada . En este caso, se puede calcular como una suma alterna bastante simple de longitud , normalizada por algunos factores:n−q+1
Γ(q+1)Γ(m+q+1) 3F~2(q,q−n,q+r; q+1,m+q+1; 1)=∑i=0n−q(−1)i(n−qi)q(q+r)⋯(q+r+i−1)(q+i)(1+m+q)(2+m+q)⋯(i+m+q)=1−(n−q1)q(q+r)(1+q)(1+m+q)+(n−q2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q)−⋯.
This has reduced the calculation of the probability to nothing more complicated than addition, subtraction, multiplication, and division. The computational effort scales as O((n−q)2). By exploiting the symmetry
Pr(xq<yr)=1−Pr(yr<xq)
the new calculation scales as O((m−r)2), allowing us to pick the easier of the two sums if we wish. This will rarely be necessary, though, because 5-letter summaries tend to be used only for small batches, rarely exceeding n,m≈300.
Application
Suppose the two batches have sizes n=8 and m=12. The relevant order statistics for x and y are 1,3,5,7,8 and 1,3,6,9,12, respectively. Here is a table of the chance that xq<yr with q indexing the rows and r indexing the columns:
q\r 1 3 6 9 12
1 0.4 0.807 0.9762 0.9987 1.
3 0.0491 0.2962 0.7404 0.9601 0.9993
5 0.0036 0.0521 0.325 0.7492 0.9856
7 0.0001 0.0032 0.0542 0.3065 0.8526
8 0. 0.0004 0.0102 0.1022 0.6
A simulation of 10,000 iid sample pairs from a standard Normal distribution gave results close to these.
To construct a one-sided test at size α, such as α=5%, to determine whether the x batch is significantly less than the y batch, look for values in this table close to or just under α. Good choices are at (q,r)=(3,1), where the chance is 0.0491, at (5,3) with a chance of 0.0521, and at (7,6) with a chance of 0.0542. Which one to use depends on your thoughts about the alternative hypothesis. For instance, the (3,1) test compares the lower hinge of x to the smallest value of y and finds a significant difference when that lower hinge is the smaller one. This test is sensitive to an extreme value of y; if there is some concern about outlying data, this might be a risky test to choose. On the other hand the test (7,6) compares the upper hinge of x to the median of y. This one is very robust to outlying values in the y batch and moderately robust to outliers in x. However, it compares middle values of x to middle values of y. Although this is probably a good comparison to make, it will not detect differences in the distributions that occur only in either tail.
Being able to compute these critical values analytically helps in selecting a test. Once one (or several) tests are identified, their power to detect changes is probably best evaluated through simulation. The power will depend heavily on how the distributions differ. To get a sense of whether these tests have any power at all, I conducted the (5,3) test with the yj drawn iid from a Normal(1,1) distribution: that is, its median was shifted by one standard deviation. In a simulation the test was significant 54.4% of the time: that is appreciable power for datasets this small.
Much more can be said, but all of it is routine stuff about conducting two-sided tests, how to assess effects sizes, and so on. The principal point has been demonstrated: given the 5-letter summaries (and sizes) of two batches of data, it is possible to construct reasonably powerful non-parametric tests to detect differences in their underlying populations and in many cases we might even have several choices of test to select from. The theory developed here has a broader application to comparing two populations by means of a appropriately selected order statistics from their samples (not just those approximating the letter summaries).
These results have other useful applications. For instance, a boxplot is a graphical depiction of a 5-letter summary. Thus, along with knowledge of the sample size shown by a boxplot, we have available a number of simple tests (based on comparing parts of one box and whisker to another one) to assess the significance of visually apparent differences in those plots.