Cuándo usar qué: aprendizaje automático [cerrado]


39

Recientemente, en una clase de Aprendizaje automático del profesor Oriol Pujol en la UPC / Barcelona, ​​describió los algoritmos, principios y conceptos más comunes para usar en una amplia gama de tareas relacionadas con el aprendizaje automático. Aquí los comparto contigo y te pregunto:

  • ¿Existe alguna tarea integral de comparación de marcos con enfoques o métodos relacionados con diferentes tipos de problemas relacionados con el aprendizaje automático?

¿Cómo aprendo un gaussiano simple? Probabilidad, variables aleatorias, distribuciones; estimación, convergencia y asintóticas, intervalo de confianza.

¿Cómo aprendo una mezcla de gaussianos (MoG)? Probabilidad, Expectativa-Maximización (EM); generalización, selección de modelo, validación cruzada; k-means, modelos ocultos de markov (HMM)

¿Cómo aprendo alguna densidad? Estimación paramétrica versus no paramétrica, Sobolev y otros espacios funcionales; l ́ 2 error; Estimación de densidad de kernel (KDE), kernel óptimo, teoría de KDE

¿Cómo pronostico una variable continua (regresión)? Regresión lineal, regularización, regresión de cresta y LASSO; regresión lineal local; Estimación de densidad condicional.

¿Cómo pronostico una variable discreta (clasificación)? Clasificador Bayes, Bayes ingenuo, generativo versus discriminativo; perceptrón, decadencia de peso, máquina de vectores de soporte lineal; clasificador vecino más cercano y teoría

¿Qué función de pérdida debo usar? Teoría de estimación de máxima verosimilitud; l -2 estimación; Estimación bayessiana; minimax y teoría de la decisión, bayesianismo vs frecuentismo

¿Qué modelo debo usar? AIC y BIC; Teoría de Vapnik-Chervonenskis; teoría de validación cruzada; bootstrapping Probablemente la teoría aproximadamente correcta (PAC); Límites derivados de hoeffding

¿Cómo puedo aprender modelos más elegantes (combinados)? Teoría del aprendizaje conjunto; impulso harpillera; apilado

¿Cómo puedo aprender modelos más elegantes (no lineales)? Modelos lineales generalizados, regresión logística; Teorema de Kolmogorov, modelos aditivos generalizados; kernelización, reproducción de espacios Hilbert de kernel, SVM no lineal, regresión de procesos gaussianos

¿Cómo puedo aprender modelos más elegantes (composicionales)? Modelos recursivos, árboles de decisión, agrupamiento jerárquico; redes neuronales, propagación hacia atrás, redes de creencias profundas; modelos gráficos, mezclas de HMM, campos aleatorios condicionales, redes de Markov de margen máximo; modelos log-lineales; gramáticas

¿Cómo reduzco o relaciono características? Selección de características versus reducción de dimensionalidad, métodos de envoltura para la selección de características; causalidad vs correlación, correlación parcial, aprendizaje de estructura neta de Bayes

¿Cómo creo nuevas funciones? análisis de componentes principales (PCA), análisis de componentes independientes (ICA), escalamiento multidimensional, aprendizaje múltiple, reducción de dimensionalidad supervisada, aprendizaje métrico

¿Cómo reduzco o relaciono los datos? Clustering, bi-clustering, clustering restringido; reglas de asociación y análisis de la canasta de mercado; clasificación / regresión ordinal; análisis de enlaces; datos relacionales

¿Cómo trato las series de tiempo? ARMA; Filtro de Kalman y modelos de espacio estadístico, filtro de partículas; análisis de datos funcionales; detección de punto de cambio; validación cruzada para series de tiempo

¿Cómo trato datos no ideales? desplazamiento covariable; desequilibrio de clase; datos faltantes, datos muestreados irregularmente, errores de medición; detección de anomalías, robustez

¿Cómo optimizo los parámetros? Optimización sin restricciones frente a constreñida / convexa, métodos sin derivados, métodos de primer y segundo orden, backfitting; gradiente natural; optimización consolidada y EM

¿Cómo optimizo las funciones lineales? álgebra lineal computacional, inversión de matriz para regresión, descomposición de valor singular (SVD) para reducción de dimensionalidad

¿Cómo optimizo con restricciones? Convexidad, multiplicadores de Lagrange, condiciones de Karush-Kuhn-Tucker, métodos de punto interior, algoritmo SMO para SVM

¿Cómo evalúo sumas profundamente anidadas? Inferencia exacta del modelo gráfico, límites de variación en sumas, inferencia aproximada del modelo gráfico, propagación de expectativas

¿Cómo evalúo grandes sumas y búsquedas? Problemas generalizados de N-cuerpos (PNB), estructuras de datos jerárquicos, búsqueda de vecinos más cercanos, método múltiple rápido; Integración de Monte Carlo, Markov Chain Monte Carlo, Monte Carlo SVD

¿Cómo trato problemas aún mayores? EM paralelo / distribuido, GNP paralelo / distribuido; métodos estocásticos de subgrado, aprendizaje en línea

¿Cómo aplico todo esto en el mundo real? Descripción general de las partes del NM, eligiendo entre los métodos a utilizar para cada tarea, conocimiento previo y suposiciones; análisis exploratorio de datos y visualización de información; evaluación e interpretación, utilizando intervalos de confianza y prueba de hipótesis, curvas ROC; donde están los problemas de investigación en ML


Muy amplio Creo que cada subpregunta debe ser una pregunta separada para tener una respuesta significativa.
Amir Ali Akbari

2
Esta pregunta podría calificarse como demasiado amplia o no demasiado amplia, dependiendo de cómo la mire. Si la pregunta implicara una descripción detallada de tareas y métodos, eso seguramente sería amplio no solo para una pregunta, sino incluso para un solo libro. Sin embargo, no creo que esta pregunta implique esa interpretación . Creo que esta pregunta busca un marco o una taxonomía , haciendo coincidir las tareas con enfoques o métodos (los algoritmos y conceptos deben ignorarse debido a problemas de granularidad). Desde esa perspectiva, esta respuesta no es demasiado amplia y, por lo tanto, es válida en mi humilde opinión.
Aleksandr Blekh

@AleksandrBlekh Exactamente un marco del tipo que mencionas es la intención de la pregunta. Lo estoy editando para aclarar. Gracias
Javierfdr

@Javierfdr: De nada.
Aleksandr Blekh

@SeanOwen Modifiqué la pregunta principal. Por favor, dígame si aún es amplio y necesitaría hacerlo más nítido. ¡Gracias!
Javierfdr

Respuestas:


6

Estoy de acuerdo con @geogaffer. Esta es una muy buena lista, de hecho. Sin embargo, veo algunos problemas con esta lista, ya que está formulada actualmente. Por ejemplo, un problema es que las soluciones sugeridas son de diferentes niveles de granularidad , algunas de ellas representan enfoques , otras, métodos , algunas, algoritmos y otras, solo conceptos (en otras palabras, términos dentro de la terminología de dominio de un tema). Además, y creo que esto es mucho más importante que lo anterior, creo que sería muy valioso si todas esas soluciones en la lista se organizaran dentro de un marco estadístico temático unificado. Esta idea se inspiró al leer un excelente libro de Lisa Harlow "La esencia del pensamiento multivariante". Por lo tanto, recientemente inicié una discusión correspondiente, aunque actualmente algo limitada, en el sitio de Validación Cruzada de StackExchange . No deje que el título lo confunda: mi intención y esperanza implícitas es construir un marco unificado , como se mencionó anteriormente.


¡Ese marco que mencionaste sería genial! ¿Hay algo similar escrito?
Javierfdr

@Javierfdr: Nada que yo sepa. Sin embargo, sigo buscando.
Aleksandr Blekh

@AleksandrBlekh cuanto más lo pienso, más creo que la búsqueda de un marco estadístico está equivocada. Vea la respuesta de Frank Harrell a su pregunta, y mi respuesta a esta. Pero el libro de Harlow suena muy interesante y lo recogeré de la biblioteca esta semana.
shadowtalker

1
@ssdecontrol: estoy respetuosamente en desacuerdo. Suponiendo que dicho marco no existe (que probablemente sea el caso en este momento) y dándome cuenta de que no es una tarea fácil crear uno, creo firmemente que es muy posible, sin embargo. En cuanto a las respuestas que ha mencionado (siempre las leo todas), leí ambas, pero no prueban que crear ese marco sea imposible, simplemente difícil, como he mencionado. Eso no es algo que deba evitar que las personas piensen en ello e incluso trabajen para lograrlo. Disfruta el libro de Harlow.
Aleksandr Blekh

3

Esa es una buena lista que cubre mucho. He usado algunos de estos métodos desde antes de que algo se llamara aprendizaje automático, y creo que verá que algunos de los métodos que enumera entran y salen de uso con el tiempo. Si un método ha estado en desuso durante demasiado tiempo, podría ser el momento de una nueva visita. Algunos métodos pueden ofuscar detrás de diferentes nombres resultantes de diferentes campos de estudio.

Una de las principales áreas en las que he usado estos métodos es en el modelado de potencial mineral, que es geoespacial y para respaldar que podría agregar algunas categorías adicionales relacionadas con los métodos de datos espaciales y orientados.

Probablemente lleves tu pregunta general a campos específicos donde encontrarás más ejemplos de métodos que no están en tu lista completa. Por ejemplo, dos métodos que he visto en potencial mineral han sido la regresión gradual hacia atrás y el peso de los modelos de evidencia. No soy estadístico; quizás estos se considerarían cubiertos en la lista bajo regresión lineal y métodos bayesianos.


1

Creo que tu enfoque es un poco al revés.

"¿Cuál es la media de una distribución gaussiana ajustada a estos datos?" nunca es el enunciado del problema, así que "¿cómo encajo un gaussiano?" nunca es el problema que realmente quieres resolver.

La diferencia es más que semántica. Considere la pregunta "¿Cómo construyo nuevas características?" Si su objetivo es desarrollar un índice, puede usar algún tipo de análisis factorial. Si su objetivo es simplemente reducir el espacio de características antes de ajustar un modelo lineal, puede omitir el paso por completo y utilizar la regresión neta elástica en su lugar.

Un mejor enfoque sería compilar una lista de tareas de análisis de datos reales que le gustaría poder abordar . Preguntas como:

¿Cómo pronostico si los clientes volverán a mi sitio web de compras?

¿Cómo aprendo cuántos patrones de compra "principales" hay y cuáles son?

¿Cómo construyo un índice de "volatilidad" para diferentes artículos en mi tienda en línea?

Además, su lista ahora mismo incluye una enorme cantidad de material; demasiado para "revisar" y obtener más que una comprensión a nivel de superficie. Tener un propósito real en mente puede ayudarlo a ordenar sus prioridades.


Entiendo lo que dices @ssdecontrol, tener una lista completa de soluciones a problemas típicos como mencionas también podría ser muy útil. Ahora, la principal diferencia entre los dos enfoques es que lo que propongo está directamente relacionado con las preguntas técnicas que puede hacerse cuando ya está probando alternativas, y en ese punto ya hizo algunas suposiciones. Entonces, si ha asumido que sus características no son gaussianas, ¿debería usar PCA para reducir la dimensionalidad? No. Su enfoque es más amplio: qué usar para dim. reducción -> PCA, pero asume características gaussianas. Thx
Javierfdr

@Javierfdr mi punto es que las preguntas técnicas son una distracción si no tienes una pregunta importante en mente.
shadowtalker
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.