Si quiero un modelo interpretable, ¿existen otros métodos además de la regresión lineal?


18

Me encontré con algunos estadísticos que nunca usan modelos que no sean Regresión lineal para la predicción porque creen que los "modelos ML", como el bosque aleatorio o el aumento de gradiente, son difíciles de explicar o "no interpretables".

En una regresión lineal, dado que se verifica el conjunto de supuestos (normalidad de errores, homoscedasticidad, no multicolinealidad), las pruebas t proporcionan una forma de probar la importancia de las variables, pruebas que hasta donde sé no están disponibles en el bosques aleatorios o modelos de aumento de gradiente.

Por lo tanto, mi pregunta es si quiero modelar una variable dependiente con un conjunto de variables independientes, en aras de la interpretabilidad, ¿debería usar siempre la regresión lineal?


66
Depende de lo que todavía consideres lineal. Los modelos lineales generalizados y los modelos aditivos generalizados todavía funcionan sobre la base de un componente lineal que se estima, pero pueden modelar una amplia variedad de relaciones.
Frans Rodenburg

2
También depende de lo que entiendas por interpretable. Se han propuesto varias formas de "mirar dentro de la caja negra" para los modelos de aprendizaje automático, pero pueden o no ser apropiadas para sus objetivos.
user20160

55
No entiendo qué tienen que ver las estadísticas inferenciales y las pruebas t con la interpretabilidad, que la OMI trata principalmente de estimaciones de coeficientes.
S. Kolassa - Restablece a Monica el

3
@StephanKolassa "Interretability" también puede pertenecer a la forma de la función . Por ejemplo, las estimaciones de coeficientes producidas por el ajuste de curvas polinomiales fraccionales algorítmicas en modelos de regresión (ya sea regresión lineal, GLM u otra cosa), si bien obtienen un buen ajuste , son casi seguramente anti-intuitivas: ¿puede recordar el conjunto de formas producidas? por los modelos de la forma , y por lo tantointerpretaryi=β0+β1xi3/5+β2xi1/3+β3xi3+εi la relación entre y x implícita en sus estimaciones de coeficientes? yx
Alexis

2
@UserX Lo que describe es todavía una regresión lineal (es decir, es lineal en los parámetros). Contraste con y i = β 0 + β 1 x i + x β 2 i + ε i : el primero es un modelo de regresión lineal, mientras que el este último no puede estimarse usando regresión lineal. yyo=β0 0+β1Xyo+β2Xyo2+εyoyyo=β0 0+β1Xyo+Xyoβ2+εyo
Alexis

Respuestas:


29

Es difícil para mí creer que escuchaste a la gente decir esto, porque sería una tontería decirlo. Es como decir que usa solo el martillo (incluidos los agujeros de perforación y para cambiar las bombillas), porque es fácil de usar y proporciona resultados predecibles.

En segundo lugar, la regresión lineal no siempre es "interpretable". Si tiene un modelo de regresión lineal con muchos términos polinómicos, o solo con muchas características, sería difícil de interpretar. Por ejemplo, supongamos que utilizó los valores brutos de cada uno de los 784 píxeles de MNIST † como características. ¿Sabiendo que el píxel 237 tiene un peso igual a -2311.67 le diría algo sobre el modelo? Para los datos de imágenes, sería mucho más fácil comprender los mapas de activación de la red neuronal convolucional.

Finalmente, hay modelos que son igualmente interpretables, por ejemplo, regresión logística, árboles de decisión, algoritmo ingenuo de Bayes y muchos más.

† - Como notó @Ingolifs en el comentario, y como se discutió en este hilo , MNIST puede no ser el mejor ejemplo, ya que este es un conjunto de datos muy simple. Para la mayoría de los conjuntos de datos de imágenes realistas, la regresión logística no funcionaría y mirar los pesos no daría respuestas directas. Sin embargo, si observa más de cerca los pesos en el hilo vinculado, entonces su interpretación tampoco es sencilla, por ejemplo, los pesos para predecir "5" o "9" no muestran ningún patrón obvio (vea la imagen a continuación, copiada del otro hilo) )


2
Creo que esta respuesta hace un buen trabajo mostrando cuán claramente se puede explicar la regresión logística en MNIST.
Ingolifs

1
@Ingolifs está de acuerdo, pero este es un mapa de activación, podría hacer lo mismo para la red neuronal.
Tim

Independientemente de cómo se llame, brinda una explicación clara de lo que está utilizando la regresión logística para tomar sus decisiones de una manera que realmente no se obtiene para los mapas de activación de las redes neuronales.
Ingolifs

1
@Ingolifs MNIST tal vez no sea el mejor ejemplo porque es muy simple, pero el punto es que usaría el mismo método para la red neuronal.
Tim


7

Estoy de acuerdo con las respuestas de Tim y mkt: los modelos de ML no son necesariamente ininterpretables. Le diría al paquete descriptivo de Aprendizaje descriptivo de la máquina, DALEX R, que se dedica a hacer que los modelos ML sean interpretables.


1
El paquete DALEX es realmente muy interesante, ¿sabe si existe algo similar para Python?
Victor

@Victor No conozco una versión Python de DALEX, pero podría intentar llamar a R desde Python usando rpy2.readthedocs.io/en/version_2.8.x/introduction.html por ejemplo.
babelproofreader

6

No, eso es innecesariamente restrictivo. Hay una amplia gama de modelos interpretables que incluyen no solo (como dice Frans Rodenburg) modelos lineales, modelos lineales generalizados y modelos aditivos generalizados, sino también métodos de aprendizaje automático utilizados para la regresión. Incluyo bosques aleatorios, máquinas impulsadas por gradiente, redes neuronales y más. El hecho de que no obtenga coeficientes de los modelos de aprendizaje automático que son similares a los de las regresiones lineales no significa que no se pueda entender su funcionamiento. Solo toma un poco más de trabajo.

Para entender por qué, recomendaría leer esta pregunta: Obtener conocimiento de un bosque aleatorio . Lo que muestra es cómo puede abordar hacer que casi cualquier modelo de aprendizaje automático sea interpretable.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.