Estoy tratando de entender algunos documentos de Mark van der Laan. Es estadístico teórico en Berkeley y trabaja en problemas que se superponen significativamente con el aprendizaje automático. Un problema para mí (además de las matemáticas profundas) es que a menudo termina describiendo enfoques familiares de aprendizaje automático utilizando una terminología completamente diferente. Uno de sus conceptos principales es "Expectativa de máxima verosimilitud dirigida".
TMLE se utiliza para analizar datos de observación censurados de un experimento no controlado de una manera que permite la estimación del efecto incluso en presencia de factores de confusión. Sospecho firmemente que muchos de los mismos conceptos existen bajo otros nombres en otros campos, pero todavía no lo entiendo lo suficientemente bien como para relacionarlo directamente con nada.
Aquí hay un intento de cerrar la brecha con el "Análisis de datos computacionales":
Y una introducción para los estadísticos está aquí:
Inferencia causal basada en la máxima verosimilitud dirigida: Parte I
Del segundo:
En este artículo, desarrollamos un estimador particular de máxima probabilidad de efectos causales de múltiples intervenciones en puntos temporales. Esto implica el uso del superaprendizaje basado en la pérdida para obtener una estimación inicial de los factores desconocidos de la fórmula de cálculo G y, posteriormente, aplicar una función de fluctuación óptima específica del parámetro objetivo (submodelo paramétrico menos favorable) a cada factor estimado, estimar los parámetros de fluctuación con la estimación de máxima verosimilitud e iterar este paso de actualización del factor inicial hasta la convergencia. Este paso iterativo de actualización de máxima probabilidad dirigida hace que el estimador resultante del efecto causal sea doblemente robusto en el sentido de que es consistente si el estimador inicial es consistente, o el estimador de la función óptima de fluctuación es consistente. La función de fluctuación óptima se especifica correctamente si las distribuciones condicionales de los nodos en el gráfico causal en el que se interviene se especifican correctamente.
En su terminología, "superaprendizaje" es aprendizaje conjunto con un esquema de ponderación no negativo teóricamente sólido. Pero, ¿qué quiere decir con "aplicar una función de fluctuación óptima específica del parámetro objetivo (submodelo paramétrico menos favorable) a cada factor estimado".
O dividiéndolo en tres preguntas distintas, ¿TMLE tiene un paralelo en el aprendizaje automático, qué es un "submodelo paramétrico menos favorable" y qué es una "función de fluctuación" en otros campos?