¿Qué algoritmos de aprendizaje automático, si los hay, se aceptan como una buena compensación entre explicabilidad y predicción?


9

Los textos de aprendizaje automático que describen algoritmos como máquinas de aumento de gradiente o redes neuronales a menudo comentan que estos modelos son buenos para la predicción, pero esto tiene el precio de una pérdida de explicabilidad o interpretabilidad. Por el contrario, los árboles de decisión única y los modelos de regresión clásicos se etiquetan como buenos para la explicación, pero dan una precisión de predicción (relativamente) pobre en comparación con modelos más sofisticados como bosques aleatorios o SVM. ¿Existen modelos de aprendizaje automático comúnmente aceptados que representen una buena compensación entre los dos? ¿Existe alguna literatura que enumere las características de los algoritmos que les permitan ser explicables? (Esta pregunta se hizo previamente en validación cruzada)

Respuestas:


3

¿Existe alguna literatura que enumere las características de los algoritmos que les permitan ser explicables?

La única literatura que conozco es el reciente artículo de Ribero, Singh y Guestrin. Primero definen la explicabilidad de una sola predicción:

Al "explicar una predicción", nos referimos a presentar artefactos textuales o visuales que proporcionan una comprensión cualitativa de la relación entre los componentes de la instancia (por ejemplo, palabras en el texto, parches en una imagen) y la predicción del modelo.

Los autores profundizan en lo que esto significa para ejemplos más concretos, y luego usan esta noción para definir la explicabilidad de un modelo. Su objetivo es intentar y, por así decirlo, agregar explicabilidad artificialmente a modelos intransparentes, en lugar de comparar la explicabilidad de los métodos existentes. El documento puede ser útil de todos modos, ya que trata de introducir una terminología más precisa en torno a la noción de "explicabilidad".

¿Existen modelos de aprendizaje automático comúnmente aceptados que representen una buena compensación entre los dos?

Estoy de acuerdo con @Winter en que la red elástica para la regresión (no solo logística) puede verse como un ejemplo de un buen compromiso entre la precisión de la predicción y la explicabilidad.

Para un tipo diferente de dominio de aplicación (series de tiempo), otra clase de métodos también ofrece un buen compromiso: modelado de series de tiempo estructural bayesiano. Hereda la explicabilidad del modelado clásico de series temporales estructurales, y cierta flexibilidad del enfoque bayesiano. Similar a la regresión logística, la explicabilidad es ayudada por las ecuaciones de regresión utilizadas para el modelado. Consulte este documento para obtener una buena aplicación en marketing y más referencias.

En relación con el contexto bayesiano que acabamos de mencionar, es posible que también desee mirar modelos gráficos probabilísticos. Su explicabilidad no se basa en ecuaciones de regresión, sino en formas gráficas de modelado; vea "Modelos gráficos probabilísticos: principios y técnicas" de Koller y Friedman para una gran visión general.

Sin embargo, no estoy seguro de si podemos referirnos a los métodos bayesianos anteriores como una "buena compensación generalmente aceptada". Puede que no sean lo suficientemente conocidos para eso, especialmente en comparación con el ejemplo de red elástica.


Ahora que he tenido más oportunidades de considerar el documento vinculado de Ribeiro et al., Me gustaría decir que la Sección 2 'El caso de la explicación' contiene algo así como una definición útil de 'explicabilidad', y hace un el trabajo decente de delinear su importancia y, como tal, merece ser leído ampliamente dentro de la comunidad de Data Science.
Robert de Graaf

Aunque la premisa de mi pregunta no fue aceptada en CV, @SeanEaster me ayudó con este útil enlace: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Robert de Graaf

3

¿Existen modelos de aprendizaje automático comúnmente aceptados que representen una buena compensación entre los dos?

Supongo que al ser bueno en la predicción, quiere decir que puede ajustar las no linealidades presentes en los datos y ser bastante robusto para el sobreajuste. La compensación entre la capacidad de interpretación y la capacidad de predecir esas no linealidades depende de los datos y las preguntas formuladas. Realmente no hay almuerzo gratis en ciencia de datos y ningún algoritmo único puede considerarse el mejor para cualquier conjunto de datos (y lo mismo se aplica para la interpretabilidad).

La regla general debe ser que cuantos más algoritmos conozca, mejor será para usted, ya que puede adoptar sus necesidades específicas con mayor facilidad.

Si tuviera que elegir mi tarea de clasificación favorita que utilizo a menudo en el entorno empresarial, elegiría red elástica para la regresión logística . A pesar de la fuerte suposición sobre el proceso que genera los datos, puede adoptar fácilmente los datos gracias al término de regularización que mantiene su interpretabilidad a partir de la regresión logística básica.

¿Existe alguna literatura que enumere las características de los algoritmos que les permitan ser explicables?

Le sugiero que elija un libro bien escrito que describa los algoritmos de aprendizaje automático comúnmente utilizados y sus pros y contras en diferentes escenarios. Un ejemplo de este libro puede ser Los elementos del aprendizaje estadístico de T. Hastie, R. Tibshirani y J. Friedman


3
TBH fue mi frustración por ese texto exacto, que usa la palabra 'interpretable' muchas veces en relación con diferentes modelos, y en una etapa dice '... la aplicación de minería de datos requiere modelos interpretables. No es suficiente simplemente producir predicciones '(sección 10.7), sin que yo pueda encontrar material sobre cómo identificar un modelo interpretable, lo que provocó la pregunta. Aunque era y odio parecer crítico con un texto tan respetado. Del mismo modo, el artículo de TIbshirani que presenta LASSO enumera 'interpretable' como una de sus virtudes sin decir qué es 'interpretable'.
Robert de Graaf

1

Posiblemente vea mi respuesta con respecto a la efectividad irracional de los conjuntos y las compensaciones en la explicación versus la predicción. La longitud mínima del mensaje (MML, Wallace 2005) ofrece una definición formal de la explicación en términos de compresión de datos, y motiva la expectativa de que las explicaciones generalmente se ajustan sin sobreajustar, y las buenas explicaciones generan buenas predicciones generalizables. Pero también toca la teoría formal de por qué los conjuntos predecirán mejor: un resultado que se remonta a (Solomonoff 1964) sobre predicción óptima e intrínseco a enfoques totalmente bayesianos: integrarse sobre la distribución posterior, no solo elegir la media, la mediana, o modo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.