Permítanme describir lo que veo tan pronto como lo veo:
Si estamos interesados en la distribución condicional de (que si a menudo se centra el interés si vemos como IV e como DV), entonces para la distribución condicional de parece bimodal con un grupo superior ( entre aproximadamente 70 y 125, con una media un poco por debajo de 100) y un grupo inferior (entre 0 y aproximadamente 70, con una media de aproximadamente 30). Dentro de cada grupo modal, la relación con es casi plana. (Ver líneas rojas y azules a continuación dibujadas aproximadamente donde supongo que se debe tener un sentido aproximado de la ubicación)yXyx ≤ 0.5YEl | XX
Luego, al observar dónde esos dos grupos son más o menos densos en , podemos pasar a decir más:X
Para el grupo superior desaparece por completo, lo que hace que la media general de caiga, y por debajo de aproximadamente 0.2, el grupo inferior es mucho menos denso que por encima, lo que hace que el promedio general sea más alto.x > 0.5X
Entre estos dos efectos, induce una aparente relación negativa (pero no lineal) entre los dos, ya que parece estar disminuyendo contra pero con una región amplia, en su mayoría plana en el centro. (Ver línea discontinua púrpura)mi( YEl | X= x )X
Sin duda, sería importante saber qué eran y , porque entonces podría ser más claro por qué la distribución condicional para podría ser bimodal en gran parte de su rango (de hecho, incluso podría quedar claro que efectivamente hay dos grupos, cuyos las distribuciones en inducen la aparente relación decreciente en ).YXYXYEl | X
Esto es lo que vi basado en una inspección puramente "a simple vista". Con un poco de juego en algo así como un programa básico de manipulación de imágenes (como el que dibujé las líneas) podríamos comenzar a encontrar algunos números más precisos. Si digitalizamos los datos (que es bastante simple con herramientas decentes, aunque a veces es un poco tedioso hacerlo bien), entonces podemos realizar análisis más sofisticados de ese tipo de impresión.
Este tipo de análisis exploratorio puede llevar a algunas preguntas importantes (a veces las que sorprenden a la persona que tiene los datos pero solo ha mostrado una trama), pero debemos tener cuidado con la medida en que nuestros modelos son elegidos por tales inspecciones, si aplicamos modelos elegidos en función de la apariencia de un gráfico y luego estimamos esos modelos con los mismos datos, tendremos a encontrar los mismos problemas que tenemos cuando usamos una selección y estimación de modelos más formales en los mismos datos. [Esto no es negar la importancia del análisis exploratorio en absoluto; es solo que debemos tener cuidado con las consecuencias de hacerlo sin tener en cuenta cómo lo hacemos. ]
Respuesta a los comentarios de Russ:
[Edición posterior: para aclarar: estoy ampliamente de acuerdo con las críticas de Russ tomadas como precaución general, y ciertamente hay alguna posibilidad de que haya visto más de lo que realmente existe. Planeo volver y editarlos en un comentario más extenso sobre patrones espurios que comúnmente identificamos a simple vista y las formas en que podríamos comenzar a evitar lo peor de eso. Creo que también podré agregar alguna justificación sobre por qué creo que probablemente no solo sea falso en este caso específico (por ejemplo, a través de un regresograma o un núcleo de orden 0 sin problemas, aunque, por supuesto, a falta de más datos para probar, solo hay tan lejos que pueda llegar, por ejemplo, si nuestra muestra no es representativa, incluso el remuestreo solo nos lleva tan lejos.]
Estoy completamente de acuerdo en que tenemos una tendencia a ver patrones espurios; Es un punto que hago con frecuencia aquí y en otros lugares.
Una cosa que sugiero, por ejemplo, al mirar gráficas residuales o gráficas QQ es generar muchas gráficas donde se conoce la situación (tanto como deberían ser las cosas y donde las suposiciones no son válidas) para tener una idea clara de cuánto patrón debería ser ignorado
Aquí hay un ejemplo donde se coloca un gráfico QQ entre otros 24 (que satisfacen los supuestos), para que podamos ver cuán inusual es el gráfico. Este tipo de ejercicio es importante porque nos ayuda a evitar engañarnos interpretando cada pequeño meneo, la mayoría de los cuales serán simples ruidos.
A menudo señalo que si puede cambiar una impresión cubriendo algunos puntos, es posible que dependamos de una impresión generada por nada más que ruido.
[Sin embargo, cuando es evidente desde muchos puntos en lugar de pocos, es más difícil mantener que no está allí].
Las presentaciones visuales en la respuesta de whuber apoya mi impresión, la trama parece desenfoque gaussiano para recoger la misma tendencia a la bimodalidad en .Y
Cuando no tenemos más datos para verificar, al menos podemos ver si la impresión tiende a sobrevivir al remuestreo (arranque la distribución bivariada y ver si casi siempre está presente) u otras manipulaciones donde la impresión no debería ser evidente Si es simple ruido.
1) Aquí hay una manera de ver si la aparente bimodalidad es más que asimetría más ruido: ¿aparece en una estimación de densidad del núcleo? ¿Sigue siendo visible si trazamos estimaciones de densidad del núcleo bajo una variedad de transformaciones? Aquí lo transformo hacia una mayor simetría, al 85% del ancho de banda predeterminado (ya que estamos tratando de identificar un modo relativamente pequeño, y el ancho de banda predeterminado no está optimizado para esa tarea):
Los gráficos son , y . Las líneas verticales están en , y . La bimodalidad está disminuida, pero sigue siendo bastante visible. Como está muy claro en el KDE original, parece confirmar que está allí, y el segundo y el tercer diagrama sugieren que es al menos algo robusto para la transformación.YY--√Iniciar sesión( Y)6868--√Iniciar sesión( 68 )
2) Aquí hay otra forma básica de ver si es más que solo "ruido":
Paso 1: realice la agrupación en Y
Paso 2: Divídase en dos grupos en y agrupe los dos grupos por separado, y vea si es bastante similar. Si no pasa nada en las dos mitades, no se debe esperar que se dividan tanto.X
Los puntos con puntos se agruparon de manera diferente al grupo "todo en un conjunto" en la gráfica anterior. Haré algo más más tarde, pero parece que quizás podría haber una "división" horizontal cerca de esa posición.
Voy a probar un regresograma o un estimador Nadaraya-Watson (ambos son estimaciones locales de la función de regresión, ). Todavía no he generado, pero veremos cómo van. Probablemente excluiría los extremos donde hay pocos datos.mi( YEl | x)
3) Editar: Aquí está el regressograma, para contenedores de ancho 0.1 (excluyendo los extremos, como sugerí anteriormente):
Esto es completamente consistente con la impresión original que tuve de la trama; no prueba que mi razonamiento fuera correcto, pero mis conclusiones llegaron al mismo resultado que el regresograma.
Si lo que vi en la trama, y el razonamiento resultante, fue falso, probablemente no debería haber logrado discernir esta manera.mi( YEl | x)
(Lo siguiente que debería intentar sería un estimador de Nadayara-Watson. Entonces, podría ver cómo funciona el remuestreo si tengo tiempo).
4) Edición posterior:
Nadarya-Watson, núcleo gaussiano, ancho de banda 0.15:
Nuevamente, esto es sorprendentemente consistente con mi impresión inicial. Aquí están los estimadores NW basados en diez muestras de arranque:
El patrón general está ahí, aunque un par de muestras no siguen tan claramente la descripción basada en la totalidad de los datos. Vemos que el caso del nivel de la izquierda es menos seguro que el de la derecha: el nivel de ruido (en parte por pocas observaciones, en parte por la amplia difusión) es tal que es menos fácil afirmar que la media es realmente más alta en izquierda que en el centro.
Mi impresión general es que probablemente no estaba simplemente engañándome a mí mismo, porque los diversos aspectos resisten moderadamente bien a una variedad de desafíos (suavizado, transformación, división en subgrupos, remuestreo) que tenderían a oscurecerlos si fueran simplemente ruido. Por otro lado, las indicaciones son que los efectos, si bien son ampliamente consistentes con mi impresión inicial, son relativamente débiles, y puede ser demasiado para reclamar cualquier cambio real en la expectativa que se mueve desde el lado izquierdo hacia el centro.