Digamos que estoy estudiando cómo los narcisos responden a diversas condiciones del suelo. He recopilado datos sobre el pH del suelo frente a la altura madura del narciso. Espero una relación lineal, así que hago una regresión lineal.
Sin embargo, cuando comencé mi estudio, no me di cuenta de que la población en realidad contiene dos variedades de narciso, cada una de las cuales responde de manera muy diferente al pH del suelo. Entonces el gráfico contiene dos relaciones lineales distintas:
Puedo mirarlo y separarlo manualmente, por supuesto. Pero me pregunto si hay un enfoque más riguroso.
Preguntas:
¿Existe una prueba estadística para determinar si un conjunto de datos se ajustaría mejor por una sola línea o por N líneas?
¿Cómo ejecutaría una regresión lineal para ajustar las N líneas? En otras palabras, ¿cómo desenredo los datos mezclados?
Puedo pensar en algunos enfoques combinatorios, pero parecen computacionalmente caros.
Aclaraciones:
La existencia de dos variedades era desconocida en el momento de la recopilación de datos. La variedad de cada narciso no se observó, no se observó y no se registró.
Es imposible recuperar esta información. Los narcisos han muerto desde el momento de la recopilación de datos.
Tengo la impresión de que este problema es algo similar a la aplicación de algoritmos de agrupación, ya que casi necesita saber la cantidad de agrupaciones antes de comenzar. Creo que con CUALQUIER conjunto de datos, aumentar el número de líneas disminuirá el error total de rms. En el extremo, puede dividir su conjunto de datos en pares arbitrarios y simplemente dibujar una línea a través de cada par. (Por ejemplo, si tuviera 1000 puntos de datos, podría dividirlos en 500 pares arbitrarios y dibujar una línea a través de cada par). El ajuste sería exacto y el error eficaz sería exactamente cero. Pero eso no es lo que queremos. Queremos el número "correcto" de líneas.