¿Usar deciles para encontrar correlación es un enfoque estadísticamente válido?

10

Tengo una muestra de 1,449 puntos de datos que no están correlacionados (r-cuadrado 0,006).

Al analizar los datos, descubrí que al dividir los valores de las variables independientes en grupos positivos y negativos, parece haber una diferencia significativa en el promedio de la variable dependiente para cada grupo.

Al dividir los puntos en 10 bins (deciles) usando los valores de las variables independientes, parece haber una correlación más fuerte entre el número de deciles y los valores de las variables dependientes promedio (r-cuadrado de 0.27).

No sé mucho sobre estadísticas, así que aquí hay algunas preguntas:

¿Es este un enfoque estadístico válido?
¿Hay algún método para encontrar la mejor cantidad de contenedores?
¿Cuál es el término apropiado para este enfoque para que pueda buscarlo en Google?
¿Cuáles son algunos recursos introductorios para aprender sobre este enfoque?
¿Cuáles son algunos otros enfoques que puedo usar para encontrar relaciones en estos datos?

Aquí están los datos del decil para referencia: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDITAR: Aquí hay una imagen de los datos: Industry Momentum es la variable independiente, la calidad del punto de entrada depende

Industry Momentum es la variable independiente, la calidad del punto de entrada depende

— B Seven
fuente

Espero que mi respuesta (en particular las respuestas 2-4) se entienda en el sentido en que fue pensada.

— Glen_b -Reinstalar Monica

Si su propósito es explorar una forma de relación entre lo independiente y lo dependiente, esta es una buena técnica exploratoria. Puede ofender a los estadísticos, pero se usa en la industria todo el tiempo (por ejemplo, riesgo de crédito). Si está construyendo un modelo predictivo, entonces nuevamente la ingeniería de características está bien, si se realiza en un conjunto de entrenamiento debidamente validado.

— B_Miner

¿Puede proporcionar algún recurso sobre cómo asegurarse de que el resultado esté "correctamente validado"?

— B Seven

"no correlacionado (r-cuadrado 0.006)" significa que no están correlacionados linealmente . Quizás haya alguna otra correlación involucrada. ¿Ha trazado los datos en bruto (dependiente frente a independiente)?

— Emil Friedman

Tracé los datos, pero no pensé en agregarlos a la pregunta. ¡Que buena idea! Por favor vea la pregunta actualizada.

— B Seven

9

0. La correlación (0.0775) es pequeña pero (estadísticamente) significativamente diferente de 0. Es decir, parece que realmente hay correlación, es muy pequeña / débil (equivalente, hay mucho ruido alrededor de la relación).

1. Lo que hace el promedio dentro de los contenedores es reducir la variación en los datos (el efecto para el error estándar de una media), lo que significa que se infla artificialmente la correlación débil. También vea este (algo) problema relacionado . $\sigma/\sqrt{n}$

2. Claro, menos bins significa que se promedian más datos, lo que reduce el ruido, pero cuanto más anchos son, más "difuso" se vuelve el promedio en cada bin porque la media no es muy constante: hay una compensación. Si bien uno podría derivar una fórmula para optimizar la correlación bajo un supuesto de linealidad y la distribución de las 's, no tomaría en cuenta el efecto algo explotable del ruido en los datos. La manera fácil es probar una variedad completa de límites de contenedores diferentes hasta obtener lo que desea. No olvide intentar variar los anchos y orígenes del contenedor. Esa estrategia ocasionalmente puede resultar sorprendentemente útil con las densidades , y ese tipo de ventaja ocasional se puede transferir a las relaciones funcionales, tal vez permitiéndole obtener $x$ exactamente el resultado que esperabas .

3. Sí Posiblemente comience con esta búsqueda , luego quizás pruebe sinónimos.

4. Este es un buen lugar para comenzar; Es un libro muy popular dirigido a los no estadísticos.

5. (más en serio :) Sugeriría el suavizado (por ejemplo, mediante la regresión polinómica local / suavizado del núcleo, por ejemplo) como una forma de investigar las relaciones. Depende exactamente de lo que desee, pero este puede ser un enfoque válido cuando no conoce la forma de una relación, siempre que evite el problema del dragado de datos.

Hay una cita popular, cuyo creador parece ser Ronald Coase :

"Si torturas los datos lo suficiente, la naturaleza siempre confesará".

— Glen_b -Reinstate a Monica
fuente

Los puntos 1 y 2 son buenas explicaciones de por qué el enfoque del OP no es un enfoque estadístico válido, aunque es una heurística útil para convencer con respecto al punto 0 (correlación débil).

— Assad Ebrahim

9

Quizás te beneficiarías de una herramienta exploratoria. La división de los datos en deciles de la coordenada x parece haberse realizado con ese espíritu. Con las modificaciones que se describen a continuación, es un enfoque perfecto.

Se han inventado muchos métodos exploratorios bivariados. Una simple propuesta por John Tukey ( EDA , Addison-Wesley 1977) es su "trama esquemática errante". Corta la coordenada x en contenedores, erige un diagrama de caja vertical de los datos y correspondientes en la mediana de cada contenedor, y conecta las partes clave de los gráficos de caja (medianas, bisagras, etc.) en curvas (opcionalmente suavizándolas). Estas "huellas errantes" proporcionan una imagen de la distribución bivariada de los datos y permiten una evaluación visual inmediata de la correlación, linealidad de la relación, valores atípicos y distribuciones marginales, así como una estimación robusta y una evaluación de bondad de ajuste de cualquier función de regresión no lineal .

A esta idea, Tukey agregó el pensamiento, consistente con la idea del diagrama de caja, de que una buena manera de probar la distribución de datos es comenzar en el medio y trabajar hacia afuera, reduciendo a la mitad la cantidad de datos a medida que avanza. Es decir, los contenedores para usar no necesitan cortarse en cuantiles igualmente espaciados, sino que deben reflejar los cuantiles en los puntos y para . $2^{-k}$ $1-2^{-k}$ $k=1, 2, 3, \ldots$

Para mostrar las diferentes poblaciones de contenedores, podemos hacer que el ancho de cada diagrama de caja sea proporcional a la cantidad de datos que representa.

El diagrama esquemático errante resultante se vería así. Los datos, desarrollados a partir del resumen de datos, se muestran como puntos grises en el fondo. Sobre esto se ha dibujado el diagrama esquemático errante, con los cinco trazos en color y los diagramas de caja (incluidos los valores atípicos que se muestran) en blanco y negro.

Figura

La naturaleza de la correlación cercana a cero se aclara de inmediato: los datos se tuercen. Cerca de su centro, que van desde hasta , tienen una fuerte correlación positiva. En valores extremos, estos datos exhiben relaciones curvilíneas que tienden a ser en general negativas. El coeficiente de correlación neto (que resulta ser para estos datos) es cercano a cero. Sin embargo, insistir en interpretar eso como "casi sin correlación" o "correlación significativa pero baja" sería el mismo error burlado en el viejo chiste sobre la estadística que estaba contenta con su cabeza en el horno y sus pies en la nevera porque, en promedio, La temperatura era cómoda. A veces un solo número no sirve para describir la situación. $x=-4$ $x=4$ $-0.074$

Las herramientas exploratorias alternativas con propósitos similares incluyen suavidades robustas de cuantiles en ventana de los datos y ajustes de regresiones cuantiles usando un rango de cuantiles. Con la disponibilidad inmediata del software para realizar estos cálculos, tal vez se han vuelto más fáciles de ejecutar que un trazado esquemático errante, pero no disfrutan de la misma simplicidad de construcción, facilidad de interpretación y amplia aplicabilidad.

El siguiente Rcódigo produjo la figura y se puede aplicar a los datos originales con poco o ningún cambio. (Ignore las advertencias producidas por bplt(llamado por bxp): se queja cuando no tiene valores atípicos para dibujar).

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

— whuber
fuente

@EngrStudent Lea el texto de esta publicación antes de ejecutar el código. Esa advertencia se menciona y explica.

— whuber

No entiendo de dónde viene este vector c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), ¿se está generando y depende de los datos ( x)? Mencionas el 2^*(-k)pero esto no está relacionado.

— Maximiliano

@Max Ese vector genera este ejemplo particular.

— whuber

ok, pero ¿cómo procesaste las cifras? Esto está claramente mal:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))

— Maximiliano

@Max No puedo entender lo que podrías decir con "claramente equivocado". No puede referirse a mi código: como un cheque, lo volví a ejecutar y reprodujo la figura en cada detalle.

— whuber

6

No creo que binning sea un enfoque científico del problema. Es información perdida y arbitraria. Los métodos de rango (ordinal; semiparamétrico) son mucho mejores y no pierden información. Incluso si uno se decidiera por la agrupación de deciles, el método sigue siendo arbitrario y no reproducible por otros, simplemente debido a la gran cantidad de definiciones que se utilizan para cuantiles en el caso de vínculos en los datos. Y como se aludió en el agradable comentario de tortura de datos anterior, Howard Wainer tiene un buen documento que muestra cómo encontrar contenedores que pueden producir una asociación positiva, y encontrar contenedores que pueden producir una asociación negativa, desde el mismo conjunto de datos:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

— Frank Harrell
fuente

Esto es lo que sospechaba. Si elige diferentes números de contenedores, puede encontrar la mejor correlación para mostrar lo que está buscando. Pero los resultados no serían reproducibles o científicamente válidos. ¿Conoces algún recurso introductorio sobre clasificación?

— B Seven

3

Esto parece una posición demasiado extrema para tomar. Por supuesto, los métodos basados en el rango también pierden información: descartan toda la información sobre los valores reales. Entonces, la pregunta sobre si la pérdida de información es una preocupación se reduce a ¿ por qué se realiza el análisis? Si es para el descubrimiento y la exploración, varias formas guiadas de binning pueden hacer un buen trabajo, mientras que reemplazar todo por rangos probablemente oscurecería y distorsionaría las relaciones. Si se trata de una confirmación o prueba de hipótesis, sus comentarios serían más generalmente aplicables y defendibles.

— whuber

2

Realmente no estoy de acuerdo con eso. El tipo de información perdida por los métodos basados en rangos es mínimo (por ejemplo, en el caso de los residuos gaussianos), y en relación con los métodos más cargados de suposiciones, pueden obtener información. No es difícil usar un modelo semiparamétrico (p. Ej., Modelo de probabilidades proporcionales) para estimar la media y los cuantiles de . La pérdida de información es casi siempre algo malo, ya sea durante la exploración (puede perderse algo importante) o durante el análisis formal (pérdida de potencia y precisión y arbitrariedad).

\frac{π - 3}{π}

$\frac{\pi - 3}{\pi}$

Y | X

$Y | X$

— Frank Harrell

2

La división de los datos en deciles basados en la X observada ("Calidad del punto de entrada") parece ser una generalización de un método antiguo propuesto primero por Wald y luego por otros para situaciones en las que tanto X como Y están sujetas a error. (Wald dividió los datos en dos grupos. Nair y Shrivastava y Bartlett los dividieron en tres). Se describe en la sección 5C de Comprensión del análisis de datos robusto y exploratorio , editado por Hoaglin, Mosteller y Tukey (Wiley, 1983). Sin embargo, desde entonces se ha trabajado mucho en tales "Error de medición" o "Error en modelos de variables". Los libros de texto que he visto son Error de medición: modelos, métodos y aplicaciones de John Buonaccorsi (CRC Press,

Su situación puede ser algo diferente porque su diagrama de dispersión me lleva a sospechar que ambas observaciones son variables aleatorias y no sé si cada una contiene un error de medición. ¿Qué representan las variables?

— Emil Friedman
fuente

La calidad del punto de entrada es cuánto sube o baja una acción a corto plazo en un momento dado. El ímpetu de la industria es una medida de "impulso" en la industria para las acciones en el mismo momento. La hipótesis es que existe una correlación entre el impulso de la industria y el precio futuro de la acción.

— B Seven

1

Generalmente ponemos la respuesta en el eje vertical. La inspección visual sugiere que incluso si existe una correlación real, la variación en la calidad del punto de entrada la hace bastante inútil. Pero como se trata de precios de acciones, las cosas se vuelven aún más complejas porque están involucradas series de tiempo.

— Emil Friedman

2

Encontré el paquete localgauss muy útil para esto. https://cran.r-project.org/web/packages/localgauss/index.html

El paquete contiene

Rutinas computacionales para estimar y visualizar parámetros locales de Gauss. Los parámetros locales de Gauss son útiles para caracterizar y probar la dependencia no lineal dentro de los datos bivariados.

Ejemplo:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Resultado:

— SunWuKung
fuente