Deje que los datos ordenados sean . Para comprender el CDF empírico , considere uno de los valores de vamos a llamarlo y suponga que algún número de es menor que y de es igual a . Elija un intervalo en el que, de todos los valores de datos posibles, solo aparezca . Entonces, por definición, dentro de este intervalo tiene el valor constante para números menores quex1≤x2≤⋯≤xnGxiγkxiγt≥1xiγ[α,β]γGk/nγy salta al valor constante para números mayores que .(k+t)/nγ
Considere la contribución a desde el intervalo . Aunque no es una función, es una medida puntual del tamaño en integral se define mediante la integración por partes para convertirla en una integral honesta a la bondad. Hagamos esto durante el intervalo :∫b0xh(x)dx[α,β]ht/nγ[α,β]
∫βαxh(x)dx=(xG(x))|βα−∫βαG(x)dx=(βG(β)−αG(α))−∫βαG(x)dx.
El nuevo integrando, aunque es discontinuo en , es integrable. Su valor se encuentra fácilmente al romper el dominio de integración en las partes que preceden y siguen al salto en :γG
∫βαG(x)dx=∫γαG(α)dx+∫βγG(β)dx=(γ−α)G(α)+(β−γ)G(β).
Sustituyendo esto en lo anterior y recordando los rendimientosG(α)=k/n,G(β)=(k+t)/n
∫βαxh(x)dx=(βG(β)−αG(α))−((γ−α)G(α)+(β−γ)G(β))=γtn.
En otras palabras, esta integral multiplica la ubicación (a lo largo del eje ) de cada salto por el tamaño de ese salto. El tamaño del salto esX
tn=1n+⋯+1n
con un término para cada uno de los valores de datos que es igual a . Agregar las contribuciones de todos esos saltos de muestra queγG
∫b0xh(x)dx=∑i:0≤xi≤b(xi1n)=1n∑xi≤bxi.
Podríamos llamar a esto una "media parcial", ya que es igual a veces una suma parcial. (Tenga en cuenta que es no una expectativa Puede estar relacionado con la expectativa de una versión de la distribución subyacente que se ha truncado al intervalo. : debe reemplazar el del factor de , donde es el número de valores de datos dentro de .)1/n[0,b]1/n1/mm[0,b]
Dado , desea encontrar para el cualDebido a que las sumas parciales son un conjunto finito de valores, por lo general no hay una solución: tendrá que conformarse con la mejor aproximación, que se puede encontrar por horquillado entre dos medios parciales, si es posible. Es decir, al encontrar tal quekbkj1n∑xi≤bxi=k.kj
1n∑i=1j−1xi≤k<1n∑i=1jxi,
habrás reducido al intervalo . No puedes hacer nada mejor que eso usando el ECDF. (Al ajustar una distribución continua al ECDF, puede interpolar para encontrar un valor exacto de , pero su precisión dependerá de la precisión del ajuste).[ x j - 1 , x j ) bb[xj−1,xj)b
R
realiza el cálculo de la suma parcial con cumsum
y encuentra dónde cruza cualquier valor especificado utilizando la which
familia de búsquedas, como en:
set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])
El resultado en este ejemplo de datos extraídos de una distribución exponencial es
El límite superior se encuentra entre 0.39 y 0.57
El valor verdadero, resolviendo es . Su cercanía a los resultados informados sugiere que este código es preciso y correcto. (Las simulaciones con conjuntos de datos mucho más grandes siguen respaldando esta conclusión).0.5318120.1=∫b0xexp(−x)dx,0.531812
Aquí hay una gráfica del CDF empírico para estos datos, con los valores estimados del límite superior mostrados como líneas grises discontinuas verticales:G