¿Tal cosa como una correlación ponderada?

Tengo algunos datos interesantes sobre los artistas musicales más populares transmitidos divididos por ubicación en unos 200 distritos del Congreso. Quiero ver si es posible sondear a una persona sobre sus preferencias musicales y determinar si él o ella "escucha como un demócrata" o "escucha como un republicano". (Naturalmente, esto es alegre, ¡pero hay una entropía real en los datos!)

Tengo datos sobre unos 100 artistas, más el porcentaje promedio de votos para republicanos y demócratas en cada distrito durante los últimos tres ciclos electorales. Así que corrí una correlación en cada artista para ver cuáles eran los que se escuchaban de manera más desproporcionada en función de la participación en el voto de los demócratas. Esas correlaciones van desde aproximadamente -0.3 a 0.3 para cualquier artista dado, con muchas en el medio que tienen poco o ningún poder predictivo.

Tengo dos preguntas: Primero, el número total de transmisiones por distrito varía ampliamente. En este momento, estoy correlacionando el porcentaje de todas las transmisiones por distrito pertenecientes, por ejemplo, a Beyonce, con el porcentaje de votos emitidos para los demócratas. Pero las corrientes totales en un distrito podrían estar en millones, mientras que otro está en los bajos 100,000. ¿Necesito ponderar la correlación de alguna manera para dar cuenta de esto?

En segundo lugar, tengo curiosidad por saber cómo combinar estas correlaciones en una conjetura compuesta sobre la política del usuario. Digamos que tomo a los 20 artistas con los valores correlativos absolutos más altos (positivos y negativos), diez en cada dirección, y encuesta a un usuario sobre cuánto le gusta a cada artista. Así que tengo votos positivos o negativos para cada artista más la correlación con la política para los 20 valores. ¿Existe una forma estándar de combinar estas correlaciones en una sola estimación? (Estoy pensando en algo como el famoso cuestionario de dialecto de NYTimes , donde combina las probabilidades regionales de 25 preguntas en un mapa de calor. Pero en este caso, solo necesito un solo valor sobre qué tan democrático o republicano es el gusto musical).

¡Gracias!

— Chris Wilson
fuente

La fórmula para la correlación de Pearson ponderada se puede encontrar fácilmente en la web , StackOverflow y Wikipedia, y se implementa en varios paquetes R, por ejemplo , psych , o weights y en el paquete statsmodels de Python . Se calcula como una correlación regular pero con el uso de medios ponderados ,

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

variaciones ponderadas ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{yo} w_{yo}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

y covarianza ponderada

s_{X Y} = \frac{\sum_{yo} w_{yo} (X_{yo} - {metro}_{X}) (y_{yo} - {metro}_{Y})}{\sum_{yo} w_{yo}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

teniendo todo esto, puede calcular fácilmente la correlación ponderada

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

En cuanto a su segunda pregunta, según tengo entendido, tendría datos sobre las correlaciones entre la orientación política y la preferencia para las respuestas binarias de veinte artistas y usuarios sobre su preferencia y desea obtener algún tipo de medida agregada de la misma.

Comencemos con el promedio de correlaciones. Existen múltiples métodos para promediar probabilidades , pero no parece haber tantos enfoques para promediar correlaciones. Una cosa que podría hacerse es usar Fisher's $z$

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

Básicamente, tomar tangentes de coeficientes de correlación "aplana" los valores extremos (ver más abajo) para que tengan una influencia menor en la estimación final y acerquen su distribución a la normalidad. Bushman y Wang (1995) y Corey, Dunlap y Burke (1998) también describieron este procedimiento.

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{yo} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} X_{yo j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

Pero...

¿No crees que todo esto es una exageración para algo que es básicamente un problema de regresión múltiple? En cambio, todas las ponderaciones y promedios simplemente podrían usar la regresión múltiple ponderada (lineal o logística dependiendo de si predice la preferencia binaria o la preferencia de grado en cualquier dirección) donde los pesos se basan en tamaños de submuestras. Usaría la preferencia musical para cada artista como predictor. Al final, usarás las preferencias del usuario para hacer predicciones. Este enfoque es más simple y estadísticamente más elegante. También aplica relativo $A$ $B$

Bushman, BJ y Wang, MC (1995). Un procedimiento para combinar coeficientes de correlación de muestra y recuentos de votos para obtener una estimación y un intervalo de confianza para el coeficiente de correlación de la población. Boletín psicológico, 117 (3), 530.

Corey, DM, Dunlap, WP y Burke, MJ (1998). Promedio de correlaciones: valores esperados y sesgo en las transformaciones combinadas de Pearson rs y Fisher's z, The Journal of General Psychology, 125 (3), 245-261.

— Tim
fuente

¡Gracias! Esto ayuda tremendamente. Otorgará recompensa cuando esté disponible más tarde hoy.

— Chris Wilson

x_{i}

$x_i$

y_{i}

$y_i$

@Kagaratsch Nunca vi tal fórmula. Esto califica como una buena pregunta para hacer.

— Tim