Expectativa de la suma de números K sin reemplazo

Dados números, donde el valor de cada número es diferente, denotado como , y la probabilidad de seleccionar cada número es , respectivamente. $n$ $v_1, v_2, ..., v_n$ $p_1, p_2, ..., p_n$

Ahora, si selecciono números en función de las probabilidades dadas, donde , ¿cuál es la expectativa de la suma de esos números? Tenga en cuenta que la selección no tiene reemplazo, por lo que los números no pueden involucrar números duplicados. Entiendo que si la selección es con reemplazo, la expectativa de la suma de los números es igual a , donde $K$ $K \leq n$ $K$ $K$ $K$ $K \times E(V)$

E (V) = v_{1} \times p_{1} + v_{2} \times p_{2} + . . . + v_{n} \times p_{n} .

$E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n.$

Además, ¿qué pasa con la expectativa de la varianza de esos números ? $K$

Soy un estudiante de doctorado de CS que está trabajando en un problema de big data, y no tengo antecedentes en estadísticas. Espero que alguien pueda darme una fórmula como respuesta. Sin embargo, si la respuesta es demasiado complicada para ser descrita por una fórmula o se debe involucrar un cálculo intensivo, una respuesta aproximada es totalmente aceptable.

Puede suponer que $n$ aquí es bastante grande, y la probabilidad puede variar mucho. En la práctica, los valores de esas probabilidades provienen de un registro de consultas, que registra una serie de consultas de agregación. El punto es que la frecuencia de cada número involucrado en las consultas puede ser bastante sesgada, es decir, algunas rara vez se consultan, mientras que otras se consultan con mucha frecuencia. Puede suponer que la distribución de probabilidad es distribución normal, distribución zipf o cualquier otra alternativa razonable.

La distribución del valor es solo un subconjunto contiguo de cualquier distribución posible. En otras palabras, si tiene un histograma que representa una determinada distribución, todos los números involucrados en este problema son todos los números dentro de un solo depósito.

En términos del valor de K, puede suponer que siempre es menor que el número de elementos consultados con frecuencia.

probability

— SciPioneer
fuente

La expectativa de la varianza de la suma será diferente sin reemplazo; necesitará un factor de corrección de población finita si no hay reemplazo. (Para ver esto intuitivamente, tenga en cuenta que si K = n la varianza de la suma es cero, porque siempre será el mismo número; así que a medida que K se acerque a n la varianza de la suma será menor).

— zbicyclist

Esta pregunta puede ser más complicada de lo que parece. Considere el caso

. La suma esperada de dos valores extraídos con reemplazo es

que es dos veces la suma esperada de un valor, por supuesto; pero la suma esperada de dos valores dibujados sin reemplazo obviamente es

excepto cuando

n = 2

$n=2$

(v_{1}, v_{2}) = (0, 1)

$(v_1,v_2)=(0,1)$

2 p_{2}

$2p_2$

v_{1} + v_{2} = 1 \neq 2 p_{2}

$v_1+v_2=1\ne 2p_2$

p_{1} = p_{2} = 1 / 2

$p_1=p_2=1/2$

— whuber

@zbicyclist Quizás no dije el problema claramente. En mi escenario, si K = N, entonces la varianza de esos números K será la varianza de la población general en lugar de 0.

— SciPioneer

(1) Esto no me parece una pregunta de autoestudio : parece un verdadero problema aplicado con probabilidad. (2) ¿Qué tan grande podría ser

? Las soluciones exactas parecen impracticables, excepto cuando se pueden enumerar todos los subconjuntos. (3) Si

pudiera ser mucho mayor que

, excluyendo la enumeración rápida, ¿qué puede decir sobre el

? Por ejemplo, ¿podrían variar o estarán todos muy cerca de

? Esto podría informar los esfuerzos para encontrar respuestas aproximadas.

n

$n$

n

$n$

20

$20$

p_{i}

$p_i$

1 / n

$1/n$

— whuber

N

$N$

K

$K$

v_{i}

$v_i$

p_{i}

$p_i$

K max (p_{i}) ≪ 1

$K\max(p_i)\ll 1$

p_{i}

$p_i$

p_{i} > 1 / K

$p_i\gt 1/K$

i

$i$

K \approx N / 2

$K\approx N/2$

Probablemente sea una respuesta que, aunque precisa, probablemente no sea tan útil. Horvitz y Thompson (1952) proporcionan resultados que cubren esta situación en general. Estos resultados se dan en términos de las expresiones combinatorias que uno podría esperar.

Para mantener la coherencia con su notación, y también para corresponder mejor con la notación más utilizada, permítanme redefinir algunas cantidades. Sea el número de elementos en la población sea el tamaño de la muestra. $N$ $n$

Sea , , representar los elementos de la población, con valores dados , y probabilidades de selección . Para una muestra dada de tamaño , deje que los valores observados en la muestra sean . $u_i$ $i=1,...,N$ $N$ $V_i$ $i=1,...,N$ $p_1,...,p_N$ $n$ $v_1,..., v_n$

Lo que se desea es la media y la varianza de la muestra total

\sum_{i = 1}^{n} v_{i} .

$\sum_{i=1}^n v_i.$

Como se menciona en los comentarios, la probabilidad de seleccionar una muestra particular dibujada en ese orden es donde la probabilidad inicial de dibujar viene dada por , la segunda probabilidad de dibujar está condicionada a haber eliminado de la población, y así sucesivamente. Por lo tanto, cada unidad posterior extraída da como resultado una nueva distribución de probabilidad para la siguiente unidad (por lo tanto, la elección de diferentes letras indiciales, porque cada una representa una distribución diferente). $s = \{u_i, u_j, ..., u_t\}$

Pr (s) = p_{i_{1}} p_{j_{2}} \dots p_{t_{n}},

$\textrm{Pr}(s) = p_{i_1}p_{j_2}\cdots p_{t_n},$

p_{i_{1}}

$p_{i_1}$

u_{i}

$u_i$

p_{i}

$p_i$

p_{j_{2}}

$p_{j_2}$

u_{j}

$u_j$

u_{i}

$u_i$

Hay muestras de tamaño que contienen de toda la población. Tenga en cuenta que esto tiene en cuenta elpermutaciones de la muestra.

S^{(i)} = n! (\binom{N - 1}{n - 1})

$S^{(i)} = n! \binom{N-1}{n-1}$

n

$n$

u_{i}

$u_i$

n!

$n!$

Supongamos que denota una muestra específica de tamaño que incluye . Entonces, la probabilidad de seleccionar el elemento viene dada por donde la suma se encuentra sobre el conjunto de tamaño de todas las muestras posibles de tamaño que contienen . (Cambié un poco la notación del papel ya que me pareció confuso). $s_n^{(i)}$ $n$ $u_i$ $u_i$

P (u_{i}) = \sum Pr (s_{n}^{(i)}),

$P(u_i) = \sum \textrm{Pr}(s_n^{(i)}),$

S^{(i)}

$S^{(i)}$

s_{n}^{(i)}

$s_n^{(i)}$

n

$n$

u_{i}

$u_i$

Del mismo modo, defina como el número de muestras que contienen y . Luego podemos definir la probabilidad de que una muestra contenga ambos como donde la suma es superior al conjunto de tamaño de todas las muestras posibles de tamaño que contienen y .

S^{(i j)} = n! (\binom{N - 2}{n - 2})

$S^{(ij)} = n! \binom{N-2}{n-2}$

u_{i}

$u_i$

u_{j}

$u_j$

P (u_{i} u_{j}) = \sum Pr (s_{n}^{(i j)}),

$\textrm{P}(u_i u_j) = \sum \textrm{Pr}(s_n^{(ij)}),$

S^{(i j)}

$S^{(ij)}$

s_{n}^{(i j)}

$s_n^{(ij)}$

n

$n$

u_{i}

$u_i$

u_{j}

$u_j$

El valor esperado se deriva entonces como

E (\sum_{i = 1}^{n} v_{i}) = \sum_{i = 1}^{N} P (u_{i}) V_{i} .

$E \left( \sum_{i=1}^n v_i \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i.$

Aunque la varianza no se deriva de forma explícita en el documento, se podría obtener a partir expectativas de la ésimo momento y los productos cruzados $q$

E (\sum_{i = 1}^{n} v_{i}^{q}) = \sum_{i = 1}^{N} P (u_{i}) V_{i}^{q}

$E \left( \sum_{i=1}^n v_i^q \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i^q$

E (\sum_{i \neq j}^{n} v_{i} v_{j}) = \sum_{i \neq j} P (u_{i} u_{j}) V_{i} V_{j} .

$E \left( \sum_{i \ne j}^n v_iv_j \right) = \sum_{i \ne j} \textrm{P}(u_i u_j) V_i V_j.$

En otras palabras, parece que uno tendría que pasar por todos los subconjuntos posibles para hacer estos cálculos. Sin embargo, tal vez esto podría hacerse para valores más pequeños de . $n$

Horvitz, DG y Thompson, DJ (1952) Una generalización del muestreo sin reemplazo de un universo finito. Revista de la Asociación Americana de Estadística 47 (260): 663-685.

— jvbraun
fuente