Hemos medido dos variables, y el diagrama de dispersión parece sugerir múltiples modelos "lineales". ¿Hay alguna forma de tratar de destilar esos modelos? Identificar otras variables independientes ha resultado ser difícil.
Ambas variables están muy sesgadas a la izquierda (hacia los números pequeños), esta es una distribución esperada en nuestro dominio. La intensidad del punto representa la cantidad de puntos de datos (en una escala ) en este < x , y > .
Alternativamente, ¿hay alguna manera de agrupar los puntos?
En nuestro campo, se afirma que estas dos variables se correlacionan linealmente. Estamos tratando de entender / explicar por qué no es el caso en nuestros datos.
(nota, tenemos 17 millones de puntos de datos)
actualización: gracias por todas las respuestas, aquí hay algunas aclaraciones solicitadas:
- Ambas variables son solo enteras, lo que explica algunos de los patrones en el diagrama de dispersión del registro.
- Afortunadamente, por definición, el valor mínimo de ambas variables es 1.
- 7 millones de puntos están en ("explicados" por el sesgo a la izquierda de los datos)
Aquí están las parcelas solicitadas:
diagrama de dispersión log-log:
(los espacios en blanco son causados por los valores enteros)
log-log polar:
Histograma de relación: