¿Procesos de Dirichlet para el aprendizaje supervisado?

8

Parece que cuando miro por aquí los modernos algoritmos de aprendizaje, se promueven cosas como redes neuronales, árboles potenciados, máquinas de vectores de soporte, bosques aleatorios y amigos para problemas de aprendizaje supervisados. Los procesos de Dirichlet y sus gustos parecen mencionarse principalmente en problemas de aprendizaje no supervisados, como la agrupación de documentos o imágenes. Veo que se utilizan para problemas de regresión, o como objetivos previos de uso general cuando uno quiere hacer estadísticas bayesianas de una manera no paramétrica o semiparamétrica (por ejemplo, como un previo flexible sobre la distribución de efectos aleatorios en ciertos modelos) pero mi experiencia limitada sugiere que Esto no proviene tanto de la multitud de aprendizaje automático como de los estadísticos más tradicionales. He buscado un poco en Google sobre esto y yo '

Entonces, ¿son los procesos de Dirichlet y sus primos más efectivos como prioritarios para los modelos de agrupación flexible? ¿No son competitivos con impulso, SVM y redes neuronales para problemas de aprendizaje supervisado? ¿Son útiles solo en ciertas situaciones para estos problemas? ¿O es incorrecta mi impresión general?

dirichlet-process

— chico
fuente

¿Qué tipo de regresión significa? en la distribución base del DP? o en el parámetro de mezcla? Creo que le costará mucho adaptar un modelo así.

— probabilidadislogica

¿O quiere decir algún tipo de "regresión" genérica en la que ajusta un DP multivariado a las distribuciones marginales y conjuntas.

— probabilidadislogica

La distribución de ajuste @probabilityislogic extraída del DP a la junta y luego ir a buscar los condicionales es el tipo de cosa que tenía en mente, con variaciones sobre ese tema. Modelar los pesos en la construcción de rotura de palo es similar.

— chico

1

Esta pregunta no está recibiendo demasiada atención, por lo que voy a responder para actualizar lo que he encontrado y (con suerte) estimular la discusión. Me encontré con un artículo que estoy deseando leer que usa DPM para hacer la clasificación (Shahbaba y Neal, 2007) que probaron en los datos del pliegue de proteínas. Esencialmente parece que usaron algo similar a lo que sugerí en los comentarios anteriores. Se comparó favorablemente con las redes neuronales y las máquinas de vectores de soporte. Esto es un alivio para mí, ya que he invertido mucho tiempo en estos modelos con miras a los problemas supervisados de aprendizaje automático, por lo que parece que (tal vez) no he estado perdiendo el tiempo.

— chico
fuente

1

Eche un vistazo al paquete DP del proceso de R. Dirichlet puede usarse al menos como previo para un efecto aleatorio y para construir una distribución de error no paramétrica para la regresión.

— scellus
fuente