Agrupación como un medio de dividir datos para la regresión logística


11

Estoy tratando de predecir el éxito o el fracaso de los estudiantes en función de algunas características con un modelo de regresión logística. Para mejorar el rendimiento del modelo, ya he pensado en dividir a los estudiantes en diferentes grupos basados ​​en diferencias obvias y construir modelos separados para cada grupo. Pero creo que podría ser difícil identificar estos grupos mediante un examen, así que pensé en dividir a los estudiantes agrupando sus características. ¿Es esta una práctica común en la construcción de tales modelos? ¿Sugeriría que lo divida en grupos obvios (por ejemplo, estudiantes de primer trimestre versus estudiantes que regresan) y luego realice la agrupación en esos grupos, o agrupación desde el principio?

Para intentar aclarar:

Lo que quiero decir es que estoy considerando usar un algoritmo de agrupamiento para dividir mi conjunto de entrenamiento para la regresión logística en grupos. Luego haría regresiones logísticas separadas para cada uno de esos grupos. Luego, cuando use la regresión logística para predecir el resultado para un estudiante, elegiría qué modelo usar según el grupo que mejor se adapte.

Quizás podría hacer lo mismo al incluir un identificador de grupo, por ejemplo, un 1 si el alumno regresa y un 0 si no.

Ahora me tiene pensando si podría ser ventajoso agrupar el conjunto de datos de entrenamiento y usar su etiqueta de agrupamiento como una característica en la regresión logística, en lugar de construir modelos de regresión logística separados para cada población.

Si es útil incluir un identificador de grupo para aquellos que regresan estudiantes vs. nuevos estudiantes, ¿podría ser útil también expandir la lista de grupos? La agrupación parece una forma natural de hacer esto.

Espero que esté claro ...


Creo que no entiendo cómo la "agrupación" y el modelo de regresión logística interactuarían o se afectarían entre sí. ¿Podría explicar la diferencia entre "agrupamiento" en este contexto e incluir un identificador de grupo como una variable explicativa en la regresión?
whuber

Respuestas:


4

Creo que si tiene una diferencia significativa en su variable dependiente entre sus grupos, entonces el enfoque de agrupamiento primero será DEFINITIVAMENTE útil. Independientemente de su algoritmo de aprendizaje elegido.

Es mi opinión que ejecutar un algoritmo de aprendizaje en una base completa puede ocultar diferencias significativas en un nivel inferior de agregación.

Cualquiera que haya oído hablar de la paradoja de Simpson, es un caso difícil de un problema más profundo en el que tiene diferentes correlaciones en diferentes grupos que están cubiertos por un ruido de muestra más grande o correlaciones más débiles de un grupo más grande.


Puede que tengas razón, pero no sigo tu argumento. ¿Está abogando por que el OP ejecute LR separados en los grupos encontrados, agregue el índice de grupo además de las covariables o en lugar de las covariables? Ciertamente es cierto que las covariables pueden confundirse con variables omitidas en la investigación observacional, pero ¿está diciendo que CA puede generar información que no está en las variables en las que se ejecuta? En cuanto a la paradoja de Simpson, se discute en CV aquí si está interesado.
gung - Restablece a Monica

Sugiero que el análisis sin supervisión extraiga grupos homogéneos con un conjunto arbitrario de IV (variables independientes). Después de esto, puede decidir si progresa con el mismo conjunto de varbs o un nuevo conjunto o un conjunto combinado para la siguiente etapa de su modelado con el LR. El propósito es construir y sintonizar 1 LR por grupo (dado que los grupos tienen valores o frecuencias DV significativamente diferentes).
clancy

Realmente lo llevé a cabo yo mismo en el contexto de un modelo de adopción para la venta cruzada de productos de seguros de vida y encontré una predicción mejorada en 2 de los grupos que estaban siendo diluidos por un tercer grupo.
clancy

Me pregunto si el modelo pudo haber necesitado un término spline. ¿Podría incluir una simulación de algunos datos, un ajuste básico, CA y un ajuste final (mejorado) con indicador de clúster? Me interesaría ver esto y jugar un poco con él para entender lo que está sucediendo.
gung - Restablece a Monica

Hola Gung, me encantaría pero no puedo encontrar el tiempo. Estoy muy interesado en la familia, el trabajo y la mejora de mis habilidades de modelado. Estoy empezando a trabajar con el modelado MARS y no estoy seguro de si esto satisfará el mismo resultado deseado que el conjunto de clúster + LR descrito.
clancy

8

Su enfoque general propuesto, que utiliza particiones latentes para asignar diferentes puntos de datos a diferentes clasificadores de base, es un enfoque bien investigado hacia la clasificación.

La razón por la que estos métodos no se usan ampliamente es probable porque son relativamente complicados y tienen tiempos de ejecución más largos que la regresión logística o SVM. En muchos casos, parece que pueden conducir a un mejor rendimiento de clasificación.

Aquí hay algunas referencias:

  • Shahbaba, B. y Neal, R. "Modelos no lineales que utilizan mezclas de procesos de Dirichlet"

  • Zhu, J. y Chen, N. y Xing, EP "SVM Infinitamente Latente para Clasificación y Aprendizaje Multitarea"

  • Rasmussen, CE y Ghahramani, Z. "Mezclas infinitas de expertos en procesos gaussianos"

  • Meeds, E. y Osindero, S. "Una mezcla alternativa infinita de expertos en procesos gaussianos"


1

Quiero reconocer desde el principio que sé relativamente poco acerca de la agrupación. Sin embargo, no veo el punto del procedimiento que describe. Si piensa, por ejemplo, que el primer trimestre versus los estudiantes que regresan podrían ser diferentes, ¿por qué no incluir una covariable que indexe eso? Del mismo modo, si cree que otra característica de los estudiantes es relevante, también puede incluirla. Si le preocupa que la relación entre su predictor principal de interés y la tasa de éxito pueda diferir, también podría incluir la interacción entre ese predictor y el primer término versus el retorno, etc. La regresión logística está bien equipada para abordar estas preguntas mediante la inclusión de tales términos en el modelo.

Por otro lado, siempre y cuando solo se agrupe en estas características y lo haga primero (sin mirar la respuesta), no veo ningún problema. Sospecho que este enfoque sería ineficiente, ya que cada modelo tiene una potencia menor porque solo se ajusta a un subconjunto de datos, pero no creo que sesgue los parámetros o invalide las pruebas. Así que supongo que podrías probar esto si realmente quieres.

Actualizar:

Supongo que sería mejor (es decir, más eficiente) ajustar un modelo con todos los datos. Podría incluir algunas covariables adicionales (como regresar versus no) más allá de su interés principal, y un indicador de agrupación que descubrió al ejecutar previamente un análisis de conglomerados. Sin embargo, si las covariables que entraron en el análisis de conglomerados también están disponibles para el modelo de regresión logística, no estoy seguro de si puedo ver qué se ganaría si solo se incluyeran todas las covariables en el modelo LR sinEl indicador de grupo. Puede haber una ventaja con la que no estoy familiarizado, ya que no soy experto en análisis de conglomerados, pero no sé cuál sería. Me parece que la CA no generaría información adicional que no estaba allí en las covariables y, por lo tanto, no agregaría nada al modelo LR. Podrías intentarlo; puede ser que esté equivocado. Pero supongo que simplemente quemarías algunos grados adicionales de libertad.

Un enfoque diferente sería ingresar el indicador de clúster en el modelo LR en lugar de las covariables en las que se basa. Dudo que esto sea beneficioso. El CA no será perfecto, como tampoco lo es cualquier otro análisis, por lo que pasar de las covariables originales al indicador de clúster derivado puede implicar cierta pérdida de información . (Una vez más, no lo sé, pero sospecho que es verdad.) Una vez más, podrías intentarlo de ambas maneras y compararlo como un ejercicio académico, aunque solo intentas muchas cosas y te decides por el resultado que se ve mejor. si quieres tomar en serio tus resultados.

No quiero simplemente hacer carpas en los análisis de conglomerados. Puede haber muchos beneficios de ellos en general, y puede haber un buen uso para ellos aquí. Sin embargo, como entiendo su situación, creo que construir un modelo LR con las covariables que cree que podrían ser relevantes es el camino a seguir.


1

Si no está atado a la regresión logística, le sugiero que use un clasificador de bosque aleatorio porque tiene una especie de agrupación integrada. La idea sería usar la matriz de proximidad para agrupar. La matriz de proximidad es la matriz N_Obs por N_Obs para la fracción de árboles fuera de bolsa donde las observaciones se encuentran en el mismo nodo terminal. Luego puede agregar esto en un nivel de entidad por matriz de nivel de entidad donde los elementos son el promedio de la fracción en la matriz de proximidad. Luego agruparía todos los niveles cuando pasen un umbral y vea si esto mejora su predicción. Es probable que sea mejor adoptar un enfoque iterativo gradual para encontrar la agrupación óptima, pero puede elegir un umbral de otras maneras. Cuando se realiza esta agrupación, puede reemplazar la función con las etiquetas del clúster o agregar las etiquetas del clúster como una nueva función. Supongo que en este punto podría volver a la regresión logística si realmente quisiera.


0

Al crear modelos multisegmentados, creo que el mejor enfoque es crear segmentos que hablen de diferencias reales en las distribuciones subyacentes. Los estudiantes de primer trimestre frente a los estudiantes que regresan son un gran ejemplo, ya que las distribuciones de predictores probablemente serán muy diferentes para estas dos poblaciones. Más importante aún, estas diferencias tienen una explicación intuitiva.


Obtengo el valor de una explicación intuitiva: te ayuda a interpretar tu modelo. Pero, ¿no hay razón para pensar que si agrupa a las personas en grupos según su similitud, en términos de las características que tiene disponibles, obtendrá un beneficio similar, aunque no con la misma capacidad de interpretación? Creo que la idea detrás del uso de la agrupación es que cuando se trata de identificar los grupos que no se corresponden perfectamente con las categorías que usamos en la vida diaria, las máquinas son mejores que los seres humanos ...
Dave

Y, además, que si entrena un modelo de regresión en un conjunto de estudiantes similares, ese modelo será más preciso en sus predicciones del éxito de esos estudiantes que un modelo que fue entrenado usando un conjunto más amplio de estudiantes.
Dave
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.