¿Por qué ecdf usa una función de paso y no una interpolación lineal?

Las funciones empíricas de CDF generalmente se estiman mediante una función de paso. ¿Hay alguna razón por la cual esto se hace de tal manera y no mediante el uso de una interpolación lineal? ¿La función de paso tiene propiedades teóricas interesantes que nos hacen preferirla?

Aquí hay un ejemplo de los dos:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf

— Tal Galili
fuente

Relacionado ...................................

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

S

$\mathfrak{S}$

P

$\mathbb{P}$

X

$X$

x_{i}

$x_i$

i

$i$ $X$

Es por definición.

$(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

$\#$

$P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$

— AlexR
fuente

Gracias Alex Entonces, ¿hay otro nombre para la función que escribí? (porque supongo que también converge al CDF real)

— Tal Galili

@TalGalili No lo hace. Considere una distribución de Bernoulli. Su ecdf2 no convergerá en este caso. Se podría llamar un ecdf suavizado. Sospecho que convergerá al CDF real si el CDF real no tiene puntos con probabilidad distinta de cero, excepto los puntos extremos (donde no se suaviza)

— AlexR

@AlexR, puede editar su respuesta para agregar este comentario, ya que las distribuciones discretas son la razón de tal definición, por lo que responde la pregunta "por qué".

— Tim

@Tim Done.

${}{}$

— AlexR

Gracias. ¿Hay alguna manera de definir una función empírica continua que converja a la función de paso pero que sea completamente monótona (es decir, sin "saltos" agudos)?

— Tal Galili