Estoy ejecutando modelos de regresión LOESS en R, y quiero comparar los resultados de 12 modelos diferentes con diferentes tamaños de muestra. Puedo describir los modelos reales con más detalles si me ayuda a responder la pregunta.
Aquí están los tamaños de muestra:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
El modelo de regresión LOESS es un ajuste de superficie, donde la ubicación X y la ubicación Y de cada campo de béisbol se usan para predecir la probabilidad de golpe oscilante. Sin embargo, me gustaría comparar entre los 12 de estos modelos, pero establecer el mismo intervalo (es decir, intervalo = 0,5) arrojará resultados diferentes ya que existe un rango tan amplio de tamaños de muestra.
Mi pregunta básica es ¿cómo determina la duración de su modelo? Un tramo más alto suaviza más el ajuste, mientras que un tramo más bajo captura más tendencias pero introduce ruido estadístico si hay muy pocos datos. Utilizo un intervalo mayor para tamaños de muestra más pequeños y un intervalo inferior para tamaños de muestra más grandes.
¿Qué tengo que hacer? ¿Cuál es una buena regla general cuando se establece el span para modelos de regresión LOESS en R? ¡Gracias por adelantado!