Variación ponderada, una vez más

La variación ponderada imparcial ya se abordó aquí y en otros lugares, pero todavía parece haber una sorprendente cantidad de confusión. Parece haber un consenso hacia la fórmula presentada en el primer enlace, así como en el artículo de Wikipedia . Esto también se parece a la fórmula utilizada por R, Mathematica y GSL (pero no MATLAB). Sin embargo, el artículo de Wikipedia también contiene la siguiente línea que parece un gran control de cordura para una implementación de variación ponderada:

Por ejemplo, si los valores {2,2,4,5,5,5} se extraen de la misma distribución, entonces podemos tratar este conjunto como una muestra no ponderada, o podemos tratarlo como la muestra ponderada {2,4, 5} con los pesos correspondientes {2,1,3}, y deberíamos obtener los mismos resultados.

Mis cálculos dan el valor de 2.1667 para la varianza de los valores originales y 2.9545 para la varianza ponderada. ¿Realmente debería esperar que sean lo mismo? ¿Por qué o por qué no?

variance weighted-mean weighted-data

— confundido
fuente

esta pregunta no es realmente acerca de la implementación, sino la teoría detrás de esto

— confundidoCoder

Sí, debe esperar que ambos ejemplos (no ponderado versus ponderado) le den los mismos resultados.

He implementado los dos algoritmos del artículo de Wikipedia.

Este funciona:

$x_i$ $w_i$

$s^2\ = \frac {1} {V_1 - 1} \sum_{i=1}^N w_i \left(x_i - \mu^*\right)^2,$

Sin embargo, este (usando pesos fraccionarios) no funciona para mí:

$x_i$ $1/w_i$

$s^2\ = \frac {V_1} {V_1^2-V_2} \sum_{i=1}^N w_i \left(x_i - \mu^*\right)^2$

Todavía estoy investigando las razones por las cuales la segunda ecuación no funciona según lo previsto.

/ EDITAR: Encontré la razón por la cual la segunda ecuación no funcionó como pensé: puede usar la segunda ecuación solo si tiene pesos normalizados o pesos de varianza ("confiabilidad"), y NO es imparcial, porque si no lo hace use pesas "repetidas" (contando la cantidad de veces que se observó una observación y, por lo tanto, debe repetirse en sus operaciones matemáticas), pierde la capacidad de contar la cantidad total de observaciones y, por lo tanto, no puede usar un factor de corrección.

Esto explica la diferencia en sus resultados usando la varianza ponderada y no ponderada: su cálculo está sesgado.

Por lo tanto, si desea tener una varianza ponderada imparcial, use solo pesos de "repetición" y use la primera ecuación que he publicado anteriormente. Si eso no es posible, bueno, no puedes evitarlo.

También he actualizado el artículo de Wikipedia si desea más información: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Y un artículo vinculado sobre covarianza ponderada imparcial (que de hecho es la misma varianza debido a la identidad de polarización ): ecuación correcta para la covarianza muestral imparcial ponderada

— gaborous
fuente

Después de leer y pensar mucho sobre esto, todavía no obtengo un significado intuitivo o un ejemplo del término "pesos de confiabilidad". ¿Puedes por favor elaborar un poco sobre eso?

— Peter

Los pesos de confiabilidad de @Peter son pesos normalizados, por ejemplo, limitados entre 0 y 1 o -1 y 1. Representan una frecuencia (por ejemplo, 0.1 significa que esta muestra se vio el 10% del tiempo en comparación con todas las demás muestras). No inventé el término, se puede encontrar en publicaciones. Para los pesos repetidos es lo contrario, cada peso representa el número de ocurrencias, la cardinalidad (por ejemplo, 10 si la muestra se observó 10 veces).

— gaborous

Esto es confuso porque lo que llama pesos de repetición a menudo también se llama pesos de frecuencia , pero creo que obtuve la diferencia. Depende de la normalización, ¿verdad?

— Peter

No, los pesos de frecuencia es un nombre alternativo para los pesos de confiabilidad. Para los pesos repetidos, es el número de ocurrencias, no la frecuencia. Con pesas repetidas, no hay normalización en absoluto, ese es el punto: siempre que normalice sus pesas, perderá la frecuencia base, por lo que no puede deshacer totalmente sus cálculos. La única forma es mantener el número total de ocurrencias. Si realmente desea usar pesos de frecuencia, creo que si almacena de antemano el número total de N ocurrencias puede convertir de ida y vuelta para repetir pesos multiplicando pesos de frecuencia por N, entonces está bien.

— gaborous

Y si sus pesos son pesos 1 / varianza, ¿cómo los llamaría? ¿Serían entonces "pesos de fiabilidad"?

— Tom Wenseleers