Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo es modelar una distribución conjunta , entonces cada muestra de entrenamiento (x_i, y_i) debe extraerse de esa distribución.
Si el objetivo es, en cambio, modelar una distribución condicional , entonces, ¿cómo cambia el requisito de iid, si es que lo hace?
- ¿Debemos extraer cada muestra iid de la distribución conjunta?
- ¿Deberíamos dibujar iid de , luego dibujar iid de ?
- ¿Podemos dibujar no iid de (por ejemplo, correlacionado con el tiempo), y luego dibujar iid de ?
¿Puedes comentar sobre la validez de estos tres enfoques para el descenso de gradiente estocástico? (O ayúdame a reformular la pregunta si es necesario).
Me gustaría hacer el # 3 si es posible. Mi aplicación está en aprendizaje de refuerzo, donde estoy usando un modelo condicional parametrizado como política de control. La secuencia de estados está altamente correlacionada, pero las acciones se muestrean a partir de una política estocástica condicionada por el estado. Las muestras resultantes (o un subconjunto de ellas) se utilizan para entrenar la política. (En otras palabras, imagine ejecutar una política de control durante mucho tiempo en algún entorno, reuniendo un conjunto de datos de muestras de estado / acción. Luego, aunque los estados se correlacionan con el tiempo, las acciones se generan independientemente, condicionadas por el estado). Esto es algo similar a la situación en este documento .
Encontré un artículo, Ryabko, 2006, " Reconocimiento de patrones para datos condicionalmente independientes ", que al principio parecía relevante; sin embargo, allí la situación se invierte de lo que necesito, donde (la etiqueta / categoría / acción) se puede dibujar no iid de , y (el objeto / patrón / estado) se dibuja iid de .
Actualización: Dos documentos ( aquí y aquí ) mencionados en el documento de Ryabko parecen relevantes aquí. Asumen que proviene de un proceso arbitrario (por ejemplo, no iid, posiblemente no estacionario). Muestran que los estimadores de kernel y vecinos más cercanos son consistentes en este caso. Pero estoy más interesado en saber si la estimación basada en el descenso de gradiente estocástico es válida en esta situación.