Estoy trabajando en un modelo de costo predictivo donde la edad del paciente (una cantidad entera medida en años) es una de las variables predictoras. Es evidente una fuerte relación no lineal entre la edad y el riesgo de hospitalización:
Estoy considerando una spline de suavizado de regresión penalizada para la edad del paciente. Según The Elements of Statistical Learning (Hastie et al, 2009, p.151), la colocación óptima del nudo es de un nudo por valor único de la edad del miembro.
Dado que estoy reteniendo la edad como un número entero, ¿la spline de suavizado penalizada es equivalente a ejecutar una regresión de cresta o lazo con 101 variables de indicador de edad distintas, una por valor de edad encontrado en el conjunto de datos (menos uno para referencia)? Luego se evita la sobre parametrización ya que los coeficientes en cada indicador de edad se reducen a cero.