¿Qué es un estudio de ablación? ¿Y hay una forma sistemática de realizarlo?

¿Qué es un estudio de ablación? ¿Y hay una forma sistemática de realizarlo? Por ejemplo, tengo predictores en una regresión lineal que llamaré como mi modelo. $n$

¿Cómo realizaré un estudio de ablación para esto? ¿Qué métricas debo usar?

Se agradecería una fuente completa o un libro de texto.

regression machine-learning neural-networks

— cgo
fuente

El término "estudio de ablación" se usa a menudo en el contexto de redes neuronales, especialmente las relativamente complejas como las R-CNN. La idea es aprender sobre la red eliminando partes de ella y estudiando su rendimiento. En el contexto de la regresión lineal que propone, la ablación no tiene sentido, se convertiría en una especie de procedimiento de selección de variables paso a paso hacia atrás.

— Robert Long

El significado original de "Ablación" es la extirpación quirúrgica del tejido corporal . El término "estudio de ablación" tiene sus raíces en el campo de la neuropsicología experimental de los años sesenta y setenta, donde se extrajeron partes del cerebro de los animales para estudiar el efecto que esto tenía en su comportamiento.

En el contexto del aprendizaje automático, y especialmente las redes neuronales profundas complejas, se ha adoptado un "estudio de ablación" para describir un procedimiento en el que se eliminan ciertas partes de la red, a fin de obtener una mejor comprensión del comportamiento de la red.

El término ha recibido atención desde un tweet de Francois Chollet , autor principal del marco de aprendizaje profundo de Keras, en junio de 2018:

Los estudios de ablación son cruciales para la investigación de aprendizaje profundo; no puedo enfatizar esto lo suficiente. Comprender la causalidad en su sistema es la forma más directa de generar conocimiento confiable (el objetivo de cualquier investigación). Y la ablación es una forma de muy poco esfuerzo para analizar la causalidad.

Si toma una configuración experimental de aprendizaje profundo complicada, es probable que pueda eliminar algunos módulos (o reemplazar algunas funciones capacitadas por otras aleatorias) sin pérdida de rendimiento. Deshágase del ruido en el proceso de investigación: haga estudios de ablación.

¿No puede entender completamente su sistema? Muchas partes móviles? ¿Desea asegurarse de que la razón por la que funciona está realmente relacionada con su hipótesis? Intenta eliminar cosas. Dedique al menos ~ 10% de su tiempo de experimentación en un esfuerzo honesto para refutar su tesis.

Como ejemplo, Girshick y colegas (2014) describen un sistema de detección de objetos que consta de tres "módulos": el primero propone regiones de una imagen dentro de las cuales buscar un objeto utilizando el algoritmo de Búsqueda selectiva ( Uijlings y colegas 2012 ), que se alimenta a una gran red neuronal convolucional (con 5 capas convolucionales y 2 capas completamente conectadas) que realiza la extracción de características, que a su vez se alimenta a un conjunto de máquinas de vectores de soporte para la clasificación. Para comprender mejor el sistema, los autores realizaron un estudio de ablación en el que se eliminaron diferentes partes del sistema; por ejemplo, eliminar una o ambas capas completamente conectadas de la CNN resultó en una pérdida de rendimiento sorprendentemente pequeña, lo que permitió a los autores concluir

Gran parte del poder de representación de la CNN proviene de sus capas convolucionales, en lugar de las capas mucho más grandes y densamente conectadas.

El OP solicita detalles de / cómo / realizar un estudio de ablación y referencias completas. No creo que haya una respuesta de "talla única" para esto. Es probable que las métricas difieran, según la aplicación y los tipos de modelo. Si reducimos el problema simplemente a una red neuronal profunda, entonces es relativamente sencillo ver que podemos eliminar capas de una manera basada en principios y explorar cómo esto cambia el rendimiento de la red. Más allá de esto, en la práctica, cada situación es diferente y en el mundo de las grandes aplicaciones complejas de aprendizaje automático, esto significa que es probable que se necesite un enfoque único para cada situación.

En el contexto del ejemplo en el OP - regresión lineal - un estudio de ablación no tiene sentido, porque todo lo que se puede "eliminar" de un modelo de regresión lineal son algunos de los predictores. Hacer esto de manera "basada en principios" es simplemente un procedimiento de selección por pasos inverso, que generalmente está mal visto - vea aquí , aquí y aquí para más detalles. Un procedimiento de regularización como el lazo, es una opción mucho mejor para la regresión lineal.

Refs:

Girshick, R., Donahue, J., Darrell, T. y Malik, J., 2014. Jerarquías ricas en características para la detección precisa de objetos y la segmentación semántica. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones (pp. 580-587).

Uijlings, JR, Van De Sande, KE, Gevers, T. y Smeulders, AW, 2013. Búsqueda selectiva de reconocimiento de objetos. Revista internacional de visión por computadora, 104 (2), pp.154-171.

— Robert Long
fuente

@cgo ¿esto responde a tu pregunta? Si es así, por favor, ¿puedes marcarlo como la respuesta aceptada ...

— Robert Long