¿Son válidos los datos de binning antes de la correlación de Pearson?

¿Es aceptable agrupar datos, calcular la media de los contenedores y luego derivar el coeficiente de correlación de Pearson sobre la base de estos medios? Me parece un procedimiento un tanto sospechoso porque (si considera los datos como una muestra de población) la dispersión de estas medias será el error estándar de la media y, por lo tanto, muy estrecha si $n$ es largo. Por lo tanto, probablemente obtendrá un coeficiente de correlación mucho mejor que el de los datos primarios, y eso parece incorrecto. Por otro lado, las personas a menudo promedian mediciones repetidas antes de un cálculo de correlación que no es muy diferente.

correlation binning

— James
fuente

¿Cuál sería el propósito de binning en este caso particular?

— chl

No hay un punto evidente en el binning antes de la correlación, a menos que esté directamente interesado en observar la relación entre las variables binned.

— Nick Cox

Agrupar datos que son continuos y luego calcular una correlación es como cortar la pierna y luego obtener muletas.

— Peter Flom

Supongo que el binning se realizó para hacer que la correlación se vea mejor de lo que era en realidad. Los datos primarios dieron una correlación pobre pero, cuando se agruparon y promediaron, se veían mucho mejor. Creo que debido a que cada valor medio de bin tendrá un pequeño error estándar (había cientos de puntos en cada bin), los valores medidos dan una correlación aparentemente hermosa.

— James

¿Por qué parar ahí? Al usar solo dos contenedores, siempre puede obtener un coeficiente de correlación de

100

$100$ % :-). En contraste, promediar las mediciones de réplica es diferente porque invoca un modelo diferente de comportamiento de datos y conduce a una inferencia diferente (sobre las expectativas de las réplicas en lugar de las réplicas mismas).

— whuber

Respuestas:

No es exactamente lo mismo que su pregunta, pero en una nota relacionada, recuerdo haber leído un artículo hace un tiempo (ya sea The American Statistician o la revista Chance, en algún momento entre 2000 y 2003) que mostró que para cualquier conjunto de datos de 2 variables donde son bastante mucho sin correlación puede encontrar una manera de agrupar la variable "predictor", luego tomar el promedio de la variable de respuesta dentro de cada bin y dependiendo de cómo haga el binning mostrar una relación positiva o negativa en una tabla o gráfico simple.

— Greg Snow
fuente

El excelente artículo al que alude es @Article {wai06fin, author = {Wainer, Howard}, title = {Encontrar lo que no está allí a través de la desafortunada combinación de resultados: {The} {Mendel} effect}, journal = {Chance}, año = 2006, volumen = 19, número = 1, páginas = {49-56}, annote = {puede encontrar contenedores que producen asociación positiva o negativa; especialmente pertinente cuando los efectos son pequeños; `` Con cuatro parámetros, puedo ajustar un elefante; con cinco, puedo hacer que mueva su tronco '' - John von Neumann}}

— Frank Harrell

@FrankHarrell, gracias por la referencia, recordé un par de años de descanso.

— Greg Snow

Consideremos dos variables ( $X_i$ , $Y_i$ ) Cuando dices bin los datos, y "bin" en $X_i$ , ¿quieres decir repetir la medición exactamente igual? $X_i$ para obtener el correspondiente $Y_i'$ ¿valor? Si repite la medición de esta manera, el error en el promedio disminuirá con $\sqrt{n}$ , y creo que eres libre de hacer lo que quieras con él. Solo asegúrese de utilizar un coeficiente de correlación ponderado si considera los puntos de datos con barras de error muy diferentes.

Ahora déjenos decir que no está repitiendo la medición de $X_i$ , pero considerando $X_i\pm\delta$ y el correspondiente $Y_i\pm\delta'$ y binning en $\delta$ y obtener valores agrupados en $\delta$ . Creo que en esta situación la solución dependerá de la relación entre el tamaño del contenedor, el error en la medición y la pendiente de la correlación. Espero que si ambos $\delta$ y son pequeños, la situación será similar a la del párrafo anterior. De lo contrario, podría ser ventajoso bin o no; cambiará los resultados porque el cov ( , ) será diferente del de los valores no enlazados, pero creo que todavía es válido hacerlo. Creo que no estás rompiendo ninguna suposición; Solo me aseguraría de que sea ventajoso hacerlo, y probaría su importancia a través de una prueba de permutación (para evitar hacer una suposición sobre la distribución del coeficiente). $\delta´$ $X_{i,bin}$ $Y_{i,bin}$

— pedrofigueira
fuente

La única forma en que puedo entender lo que escribiste es que si alguien tiene demasiado tiempo libre y solo quiere pasar la hora del día, esto es mejor que el crimen callejero.

— Frank Harrell

-1

La razón principal para agrupar datos es permitir la posibilidad de una relación no lineal entre las variables. La correlación de Pearson mide la fuerza de la asociación lineal , por lo que no funciona bien cuando la relación no es lineal.

Obviamente, hay formas mucho mejores de manejar este problema que binning. Por ejemplo, puede ajustar un modelo de regresión no lineal o local y correlacionar los valores de respuesta pronosticados y reales (aunque esto supone que un enfoque predictor-respuesta es válido, mientras que la correlación es simétrica). Binning es solo una forma de resolver el problema de no linealidad que las personas sin antecedentes estadísticos o herramientas estadísticas podrían usar.

— Hong Ooi
fuente

Binning no tiene absolutamente nada en ayudar a encontrar una relación no lineal.

— Frank Harrell