En el aprendizaje estadístico, implícita o explícitamente, siempre se supone que el conjunto de entrenamiento está compuesto de tuplas de entrada / respuesta que se extraen independientemente de la misma distribución conjunta con
y la relación que estamos tratando de capturar a través de un algoritmo de aprendizaje particular. Matemáticamente, esta suposición de iid escribe:
Creo que todos podemos estar de acuerdo en que esta suposición rara vez se cumple en la práctica, vea esta pregunta SE relacionada y los sabios comentarios de @Glen_b y @Luca.
Mi pregunta es por lo tanto:
¿Dónde exactamente el supuesto de iid se vuelve crítico en la práctica?
[Contexto]
Pregunto esto porque puedo pensar en muchas situaciones en las que no se necesita un supuesto tan estricto para entrenar un determinado modelo (por ejemplo, métodos de regresión lineal), o al menos uno puede evitar el supuesto de iid y obtener resultados sólidos. En realidad, los resultados generalmente se mantendrán igual, son más bien las inferencias que se pueden sacar las que cambiarán (por ejemplo, estimadores de HAC con heterocedasticidad y autocorrelación en regresión lineal: la idea es reutilizar los viejos pesos de regresión OLS pero adaptar el comportamiento de muestra finita del estimador MCO para explicar la violación de los supuestos de Gauss-Markov).
Por lo tanto, supongo que se requiere la suposición de iid para no poder entrenar un algoritmo de aprendizaje en particular, sino para garantizar que técnicas como la validación cruzada se puedan utilizar para inferir una medida confiable de la capacidad del modelo de generalizar bien , lo que es lo único que nos interesa al final del día en el aprendizaje estadístico porque demuestra que de hecho podemos aprender de los datos. Intuitivamente, puedo entender que el uso de la validación cruzada en datos dependientes podría estar sesgado de manera optimista (como se ilustra / explica en este interesante ejemplo ).
Para mí, iid no tiene nada que ver con la capacitación de un modelo en particular, sino todo lo que tiene que ver con la generalización de ese modelo . Esto parece estar de acuerdo con un artículo que encontré por Huan Xu et al, ver "Robustez y generalización para las muestras de Markovian" aquí .
¿Estarías de acuerdo con eso?
[Ejemplo]
Si esto puede ayudar a la discusión, considerar el problema de usar el algoritmo LASSO para llevar a cabo una selección inteligente entre características dadas N muestras de entrenamiento ( X i , y i ) con ∀ i = 1 , . . . , N X i = [ X i 1 , . . . , X i P ] Podemos suponer además que:
- Las entradas dependen por lo tanto, conduce a una violación de la hipótesis iid (por ejemplo, para cada característica j = 1 , . . , P observamos una N series de tiempo punto, por lo tanto, la introducción de auto-correlación temporal)
- Las respuestas condicionales soy independiente.
- Tenemos .
De qué manera (s) la violación de la suposición de iid puede plantear problemas en ese caso, suponiendo que planeemos determinar el coeficiente de penalización LASSO utilizando un enfoque de validación cruzada (en el conjunto de datos completo) + usar una validación cruzada anidada para tener una idea del error de generalización de esta estrategia de aprendizaje (podemos dejar a un lado la discusión sobre los pros / contras inherentes del LASSO, excepto si es útil).