No tengo un ejemplo o tarea específica en mente. Soy nuevo en el uso de b-splines y quería entender mejor esta función en el contexto de regresión.
Supongamos que queremos evaluar la relación entre la variable de respuesta y algunos predictores . Los predictores incluyen algunas variables numéricas y algunas categóricas.
Digamos que después de ajustar un modelo de regresión, una de las variables numéricas, por ejemplo, es significativa. Un paso lógico después es evaluar si se requieren polinomios de orden superior, por ejemplo: y para explicar adecuadamente la relación sin sobreajustar.
Mis preguntas son:
¿En qué punto eliges entre b-splines o polinomio de orden superior simple? por ejemplo en R:
y ~ poly(x1,3) + x2 + x3
vs
y ~ bs(x1,3) + x2 + x3
¿Cómo puede usar los gráficos para informar su elección entre esos dos y qué sucede si no está realmente claro en los gráficos (por ejemplo: debido a cantidades masivas de puntos de datos)
¿Cómo evaluaría los términos de interacción bidireccional entre y digamos
¿Cómo cambia lo anterior para diferentes tipos de modelos?
¿Consideraría nunca usar polinomios de alto orden y siempre ajustar b-splines y penalizar la alta flexibilidad?
mgcv
está, ¿por qué no usar modelos aditivos (generalizados)? La selección de suavidad es automática y los métodos de inferencia están bien desarrollados.