Dados números, donde el valor de cada número es diferente, denotado como , y la probabilidad de seleccionar cada número es , respectivamente.
Ahora, si selecciono números en función de las probabilidades dadas, donde , ¿cuál es la expectativa de la suma de esos números? Tenga en cuenta que la selección no tiene reemplazo, por lo que los números no pueden involucrar números duplicados. Entiendo que si la selección es con reemplazo, la expectativa de la suma de los números es igual a , donde
Además, ¿qué pasa con la expectativa de la varianza de esos números ?
Soy un estudiante de doctorado de CS que está trabajando en un problema de big data, y no tengo antecedentes en estadísticas. Espero que alguien pueda darme una fórmula como respuesta. Sin embargo, si la respuesta es demasiado complicada para ser descrita por una fórmula o se debe involucrar un cálculo intensivo, una respuesta aproximada es totalmente aceptable.
Puede suponer que aquí es bastante grande, y la probabilidad puede variar mucho. En la práctica, los valores de esas probabilidades provienen de un registro de consultas, que registra una serie de consultas de agregación. El punto es que la frecuencia de cada número involucrado en las consultas puede ser bastante sesgada, es decir, algunas rara vez se consultan, mientras que otras se consultan con mucha frecuencia. Puede suponer que la distribución de probabilidad es distribución normal, distribución zipf o cualquier otra alternativa razonable.
La distribución del valor es solo un subconjunto contiguo de cualquier distribución posible. En otras palabras, si tiene un histograma que representa una determinada distribución, todos los números involucrados en este problema son todos los números dentro de un solo depósito.
En términos del valor de K, puede suponer que siempre es menor que el número de elementos consultados con frecuencia.