Así que estoy trabajando con modelos de regresión logística en R. Aunque todavía soy nuevo en estadística, siento que ya tengo un poco de comprensión para los modelos de regresión, pero todavía hay algo que me molesta:
Mirando la imagen vinculada, verá el resumen R imprime para un modelo de ejemplo que creé. El modelo está tratando de predecir si un correo electrónico en el conjunto de datos será refundado o no (variable binaria isRefound
) y el conjunto de datos contiene dos variables estrechamente relacionadas isRefound
, a saber, next24
y next7days
también son binarias e indican si se hará clic en un correo en el siguiente 24 horas / próximos 7 días desde el punto actual en los registros.
El alto valor p debería indicar que el impacto que esta variable tiene en la predicción del modelo es bastante aleatorio, ¿no? En base a esto, no entiendo por qué la precisión de las predicciones de los modelos cae por debajo del 10% cuando estas dos variables quedan fuera de la fórmula de cálculo. Si estas variables muestran una importancia tan baja, ¿por qué eliminarlas del modelo tiene un impacto tan grande?
Saludos cordiales y gracias de antemano, Rickyfox
EDITAR:
Primero eliminé solo next24, lo que debería producir un bajo impacto porque su coef es bastante pequeño. Como era de esperar, poco cambió, no subiré una foto para eso.
La eliminación de los próximos 7 días tuvo un gran impacto en el modelo: AIC 200k arriba, precisión hasta 16% y recuperación hasta 73%
isRefound ~ day + next24
y omite todas las demás variables?