¿Está permitido usar promedios en un conjunto de datos para mejorar la correlación?


9

Tengo un conjunto de datos con una variable dependiente e independiente. Ambas no son series de tiempo. Tengo 120 observaciones. El coeficiente de correlación es 0.43

Después de este cálculo, he agregado una columna para ambas variables con el promedio de cada 12 observaciones, lo que resulta en 2 nuevas columnas con 108 observaciones (pares). El coeficiente de correlación de estas columnas es 0.77

Parece que mejoré la correlación de esta manera. ¿Está permitido hacer esto? ¿Aumenté el poder explicativo de la variable independiente usando promedios?


44
Todo lo que hizo fue ejecutar los datos a través de un filtro de suavizado. Esto se hace todo el tiempo en el procesamiento de la señal y es perfectamente aceptable y generalmente se requiere antes de que los datos sean incluso utilizables. Elimina el ruido que siempre prevalece en las mediciones electrónicas. Sin embargo, si es aceptable para su problema particular depende de los detalles de lo que está tratando de lograr y probablemente en gran medida cuánto "ruido" versus "calidad" hay en sus datos. Me acabo de dar cuenta de que "Ambas no son series de tiempo", así que sospecho que lo que hiciste no tiene sentido porque cambiar el orden cambia los resultados
Dunk

Gracias a todos. Mi variable dependiente es una serie de resultados mensuales de un sistema de apuestas (estos resultados no están relacionados). La variable independiente es el resultado de un indicador que construí. Este indicador genera un puntaje con respecto a cuán extremos han sido los puntajes de los partidos deportivos en un mes en particular (estos resultados deportivos no están relacionados). Sospechaba que lo que hice no tenía sentido, aunque me sorprendió que el coeficiente de correlación mejorara tanto.
user2165379

2
No estoy seguro, pero creo que promediar cualquier dato daría resultados similares. Creo que el promedio reduce los efectos de los valores atípicos. Por lo tanto, la correlación tendría que mejorar. Sin embargo, apuesto a que algunos mathy-geek pueden obtener datos bien elegidos que causarían el efecto contrario, pero no esperaría que datos como ese ocurran en el mundo real.
Dunk

No pude ver si especificaste para qué eran estos datos. Sin embargo, en general, al presentar sus datos a su audiencia específica, es una buena práctica divulgar cómo se derivaron los datos.
Jon Milliken

3
¿Cuál es la correlación de los valores promediados que se pretende representar? Ciertamente, ya no es una estimación razonable de la correlación entre las variables originales.
Glen_b -Reinstate a Monica el

Respuestas:


15

Echemos un vistazo a dos vectores, el primero es

    2 6 2 6 2 6 2 6 2 6 2 6

y el segundo vector es

   6 2 6 2 6 2 6 2 6 2 6 2

Calculando la correlación de Pearson obtendrás

cor(a,b)
[1] -1

Sin embargo, si toma el promedio de pares sucesivos para valores, ambos vectores son idénticos. Los vectores idénticos tienen correlación 1.

  4 4 4 4 4 4  

Este simple ejemplo ilustra una desventaja de su método.

Editar : para explicarlo de manera más general: el coeficiente de correlación se calcula de la siguiente manera.

E[(XμX)(YμY)]σX σY

XYXμXYμY


1
μσ

Gracias. ¿Significa esto que mis resultados están 'inflados' de halagados al usar los promedios y que siempre es mejor usar las observaciones sin promediar?
user2165379

Para las pruebas de hipótesis, debe echar un vistazo a los datos en sí y no a los promedios. En otros dominios, las estadísticas descriptivas pueden ser una herramienta útil. También debe echar un vistazo a otras medidas de estadísticas descriptivas, como los cuantiles (especialmente la mediana) y los momentos más altos (centralizados), como la varianza, la asimetría y la curtosis. Sin embargo, en nuestro caso esto no es útil. Los vectores a y b tienen los mismos cuantiles, los mismos momentos y los mismos momentos centralizados.
Ferdi

1
El promedio tiende a aumentar las correlaciones al eliminar la dispersión cuasialeatoria, pero un promedio suficientemente perverso podría empujar las correlaciones hacia cero.
Nick Cox

Gracias. Entonces, si el promedio tiende a aumentar la correlación en general, ¿esto implica que no es una mejora? ¿O es una mejora porque se elimina la dispersión cuasialeatoria?
user2165379

10

El promedio puede ser atractivo o conveniente. También puede ser una fuente de engaño, en el peor de los engaños, así que pise con cuidado incluso cuando exista una razón clara para promediar.

1

Hay algunas situaciones en las que el promedio puede tener sentido. Por ejemplo, si las variaciones estacionales tienen poco o ningún interés, el promedio en valores anuales crea un conjunto de datos reducido en el que puede centrarse en esos valores anuales.

En varios campos, los investigadores podrían estar interesados ​​en correlaciones a escalas bastante diferentes, por ejemplo, entre desempleo y delincuencia para individuos, condados, estados, países (sustituya los términos que tengan más sentido).

El interés, y a menudo también una fuente importante de problemas de inferencia, es interpretar lo que está sucediendo a diferentes escalas o niveles. Por ejemplo, una alta correlación entre la tasa de desempleo y la tasa de criminalidad en áreas no necesariamente significa que los desempleados tengan una mayor tendencia a ser delincuentes; necesita datos sobre las personas para tener claro eso. La provisión de datos puede ser extremadamente incómoda ya que los datos están disponibles solo en la escala menos interesante, tal vez por cuestiones de economía o confidencialidad.

Observo también que muchas mediciones son, en primer lugar, promedios en intervalos de tiempo pequeños y / o intervalos de espacio pequeños, por lo que los datos a menudo llegan en promedio en cualquier caso.


3
Me hago eco de la respuesta de @ Ferdi al subrayar que puede haber muchas formas diferentes de promediar. Esto crea una fuente adicional de incertidumbre. La dificultad es especialmente aguda al agregar áreas pequeñas a más grandes.
Nick Cox
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.