Error estándar de cálculo en la estimación de la media ponderada

Supongamos que y se dibuja cada iid de algunas distribuciones, con independiente de . Los son estrictamente positivos. Usted observa todo el , pero no el ; más bien observas . Estoy interesado en estimar partir de esta información. Claramente, el estimador es imparcial y puede calcularse con la información disponible. $w_1,w_2,\ldots,w_n$ $x_1,x_2,...,x_n$ $w_i$ $x_i$ $w_i$ $w_i$ $x_i$ $\sum_i x_i w_i$ $\operatorname{E}\left[x\right]$

\bar{x} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}

$\bar{x} = \frac{\sum_i w_i x_i}{\sum_i w_i}$

¿Cómo podría calcular el error estándar de este estimador? Para el sub-caso donde toma solo los valores 0 y 1, intente ingenuamente básicamente ignorando la variabilidad en , pero descubrió que esto funcionó mal para tamaños de muestra más pequeños que alrededor de 250. (Y esto probablemente depende de la varianza de .) Parece que tal vez no tengo suficiente información para calcular un error estándar "mejor". $x_i$

s e \approx \frac{\sqrt{\bar{x} (1 - \bar{x}) \sum_{i} w_{i}^{2}}}{\sum_{i} w_{i}},

$se \approx \frac{\sqrt{\bar{x}(1-\bar{x})\sum_i w_i^2}}{\sum_i w_i},$

w_{i}

$w_i$

w_{i}

$w_i$

standard-error weighted-mean

— shabbychef
fuente

Respuestas:

Me encontré con el mismo problema recientemente. Lo siguiente es lo que encontré:

A diferencia de una muestra aleatoria simple con pesos iguales, no existe una definición ampliamente aceptada de error estándar de la media ponderada . En estos días, sería sencillo hacer un arranque y obtener la distribución empírica de la media, y en base a esa estimación, el error estándar.

¿Qué pasa si uno quisiera usar una fórmula para hacer esta estimación?

La referencia principal es este documento , de Donald F. Gatz y Luther Smith, donde se comparan 3 estimadores basados en fórmulas con los resultados de bootstrap. La mejor aproximación al resultado de bootstrap proviene de Cochran (1977):

$(SEM_w)^2={\dfrac{n}{(n-1)(\sum {P_i})^2}}[\sum (P_i X_i-\bar{P}\bar{X}_w)^2-2 \bar{X}_w \sum (P_i-\bar{P})(P_i X_i-\bar{P}\bar{X}_w)+\bar{X}^2_w \sum (P_i-\bar{P})^2]$

El siguiente es el código R correspondiente que vino de este hilo de RerveServe .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

¡Espero que esto ayude!

— Ming K
fuente

Esto es bastante bueno, pero para mi problema ni siquiera observo el

, sino que observo la suma

. Mi pregunta es muy extraña porque implica cierta asimetría de información (un tercero está informando la suma e intentando ocultar algo de información).

P_{i} X_{i}

$P_iX_i$

\sum_{i} P_{i} X_{i}

$\sum_i P_iX_i$

— shabbychef

Dios, tienes razón, lo siento, no entendí completamente la pregunta que planteaste. Supongamos que hervir el problema hasta el caso más simple, donde todo

son Bernoulli RV. Entonces esencialmente estás observando la suma de un subconjunto aleatorio de

RVs. Supongo que no hay mucha información aquí para estimar. Entonces, ¿qué terminaste haciendo por tu problema original?

w_{i}

$w_i$

n

$n$

— Ming K

@ Ming-ChihKao esta fórmula de Cochran es interesante, pero si construye un intervalo de confianza a partir de esto cuando los datos no son normales, ¿no hay una interpretación coherente correcta? ¿Cómo manejaría los intervalos de confianza promedio ponderados no normales? Cuantiles ponderados?

— user3022875

Creo que hay un error con la función. Si sustituyes w=rep(1, length(x)), entonces weighted.var.se(rnorm(50), rep(1, 50))se trata 0.014. Creo que a la fórmula le falta un sum(w^2)numerador, ya que cuando P=1la varianza es 1/(n*(n-1)) * sum((x-xbar)^2). No puedo consultar el artículo citado ya que está detrás de un muro de pago, pero creo que esa corrección. Por extraño que parezca, la solución (diferente) de Wikipedia se degenera cuando todos los pesos son iguales: en.wikipedia.org/wiki/… .

— Max Candocia

Estos pueden funcionar mejor en general: analyticalgroup.com/download/WEIGHTED_MEAN.pdf

— Max Candocia

La varianza de su estimación dada la es $w_i$ Como su estimación es imparcial para cualquier, la varianza de su media condicional es cero. Por lo tanto, la varianza de su estimación es

\frac{\sum w_{i}^{2} V a r (X)}{(\sum w_{i})^{2}} = V a r (X) \frac{\sum w_{i}^{2}}{(\sum w_{i})^{2}} .

$\frac{\sum w_i^2 Var(X)}{(\sum w_i)^2} = Var(X) \frac{\sum w_i^2 }{(\sum w_i)^2}.$

w_{i}

$w_i$

Con todos los datos observados, esto sería fácil de estimar empíricamente. Pero con sólo una medida de la ubicación de la

observado, y no su difusión, no veo cómo va a ser posible obtener una estimación de

, sin hacer suposiciones bastante severas.

V a r (X) E (\frac{\sum w_{i}^{2}}{(\sum w_{i})^{2}})

$Var(X) \mathbb{E}\left(\frac{\sum w_i^2 }{(\sum w_i)^2}\right)$

X_{i}

$X_i$

V a r (X)

$Var(X)$

— invitado
fuente

x_{i}

$x_i$

x

$x$

\bar{x} (1 - \bar{x})

$\bar{x}(1-\bar{x})$