¿Cómo asigno más peso a las observaciones más recientes en R?
Supongo que esto es una pregunta o deseo común, pero me resulta difícil descubrir exactamente cómo implementar esto. He intentado buscar mucho para esto, pero no puedo encontrar un buen ejemplo práctico.
En mi ejemplo, tendría un gran conjunto de datos con el tiempo. Quiero decir aplicar algún tipo de ponderación exponencial de las filas de datos que son más recientes. Entonces, tendría algún tipo de función exponencial diciendo que las observaciones en 2015 son ___ más importantes para entrenar el modelo que las observaciones en 2012.
Las variables de mi conjunto de datos contienen una combinación de valores categóricos y numéricos y mi objetivo es un valor numérico, si eso es importante.
Me gustaría probar / probar esto usando modelos como GBM / Random Forest, idealmente en el paquete CARET.
pregunta-actualización
Agradezco la respuesta dada a continuación sobre cómo disminuir exponencialmente el peso por la distancia de fecha entre dos puntos.
Sin embargo, cuando se trata de entrenar este modelo en caret, ¿cómo influyen exactamente los pesos? El valor de peso en cada una de las filas de entrenamiento es la distancia entre algún punto en el futuro y cuándo ese punto ocurrió históricamente.
¿Las pesas entran en juego solo durante la predicción? Porque si entran en juego durante el entrenamiento, ¿eso no causaría todo tipo de problemas, ya que varios pliegues cruzados tendrían pesos variables, tratando de predecir algo que realmente podría tener en un momento anterior?