Tengo una pregunta sobre los clústeres que estoy considerando tratar con un enfoque de mezcla no paramétrica (creo). Estoy trabajando en la explicación del comportamiento humano.
Cada fila de mi base de datos contiene:
- la identificación de alguien
- Algunos parámetros del entorno X (ejemplo: la temperatura, el viento, etc.)
- una variable binaria Y que representa la reacción de la persona a los parámetros (ejemplo: enfermarse o no enfermarse debido al clima).
Mi idea (basada en la intuición y no en los datos) es que podemos reunir personas en un número finito de grupos para que en un grupo, las personas tengan la misma reacción a la temperatura (algunos se enferman fácilmente, otros nunca se enferman ...) . En un grupo dado, más formalmente, la ley de Y condicional a los parámetros X es la misma.
No tengo ni idea de la ley de Y condicionada a X . Para los parámetros X , puedo hacer algunas hipótesis si es necesario.
Me gustaría crear un grupo de personas que "tengan más o menos" la misma reacción al parámetro. Además, me gustaría predecir la reacción de una persona dada a un valor dado de los parámetros (incluso si este evento nunca ha sucedido en la base de datos).
Me parece que podemos tratar el problema como un modelo de mezcla no paramétrico. Como no tengo hipótesis sobre la ley condicional de Y , creo que tendré que crearla con el método de los núcleos, por ejemplo. He encontrado este artículo . Además, me parece que, en este caso, cada fila de observación no es una simple realización de alguna variable aleatoria, pero es una realización de una variable aleatoria, e es una realización de una variable aleatoria condicional a . No sé si hace la diferencia.
Tengo alrededor de 100000 filas. El vector tiene algunos componentes discretos, y otros son continuos. Me pregunto:
- ¿Es correcto mi enfoque?
- ¿Recomendaría otro punto de vista para este problema?
Estaría muy interesado en cualquier referencia al respecto.
No dude en pedirme que reformule la declaración del problema.