¿Cómo se probaría formalmente que el error OOB en bosque aleatorio es imparcial?

He leído esta declaración muchas veces, pero nunca he encontrado una prueba. Me gustaría intentar producir uno yo mismo, pero ni siquiera estoy seguro de qué notación usar. Puede alguien ayudarme con esto?

— JEquihua
fuente

OOB no carece de sesgo. El único componente, a menudo el más importante, del sesgo que elimina OOB es el "optimismo" que sufre un ajuste en la muestra. Por ejemplo, la OOB está sesgada de manera pesimista porque se basa en las predicciones promediadas de solo de los árboles en el bosque. EDITAR: como se señala en la respuesta de @cbeleites a continuación.

\approx 36.8 %

$\approx 36.8 \%$

— Jim

Respuestas:

No sé si esta es la respuesta final, pero esas cosas no caben en un comentario.

La afirmación de que los errores OOB son imparciales se usa a menudo, pero nunca vi una demostración. Después de muchas búsquedas, finalmente di después de leer detenidamente la conocida página de Breiman para la sección de RF : La estimación del error fuera de bolsa (oob) . En caso de que no lo hayas notado (como me perdí por algún tiempo), la última propuesta es la importante: esto ha demostrado ser imparcial en muchas pruebas . Por lo tanto, no hay signos de derivación formal.

Más que eso, parece estar probado que para el caso en que tiene más variables que instancias, este estimador está sesgado. Ver aquí .

Para el error en la bolsa hay una derivación formal. El error en la bolsa es el error de arranque y hay mucha literatura que comienza con "Una Introducción al Bootsrap, por Efron y Tibshirani". Sin embargo, la demostración más limpia que vi está aquí .

Si desea comenzar a encontrar una prueba, creo que un buen punto de partida es la comparación de esta estimación con la validación cruzada N-fold. En ESTL se afirma que hay una identidad en el límite, ya que el número de muestras va al infinito.

— rapaio
fuente

Le eché un vistazo rápido al artículo de Mitchell, y hasta ahora no me gusta particularmente (creo que el es en cierta forma una coincidencia: incluso los bosques aleatorios no son una bala mágica en muy pocos casos. En algún momento también su rendimiento se rompe y creo que esta es la causa subyacente de las observaciones informadas). Sin embargo, las observaciones de un sesgo pesimista no me sorprenden, vea mi respuesta. En realidad, creo que los pensamientos que describo en mi respuesta pueden ofrecer una explicación conceptual bastante simple de lo que está sucediendo allí.

n ≪ p

$n \ll p$

— cbeleites descontento con SX

¿Por qué esperas que el error oob sea imparcial?

Hay (al menos) 1 caso de capacitación menos disponible para los árboles utilizados en el bosque sustituto en comparación con el bosque "original". Esperaría que esto conduzca a un pequeño sesgo pesimista más o menos comparable a la validación cruzada de dejar uno fuera.
Hay aproximadamente del número de árboles del bosque "original" en el bosque sustituto que en realidad se evalúa con el caso excluido. Por lo tanto, esperaría una mayor varianza en la predicción, lo que causará un sesgo pesimista adicional. $\frac{1}{e} \approx \frac{1}{3}$

Ambos pensamientos están estrechamente relacionados con la curva de aprendizaje del clasificador y la aplicación / datos en cuestión: el primero con el rendimiento promedio en función del tamaño de la muestra de entrenamiento y el segundo con la variación alrededor de esta curva promedio.

En general, esperaría que a lo sumo sea capaz de demostrar formalmente que Oob es un estimador imparcial del rendimiento de los bosques aleatorios que contienen de la cantidad de árboles del bosque "original" y la capacitación en casos de los datos de capacitación originales. $\frac{1}{e} \approx \frac{1}{3}$ $n - 1$

Tenga en cuenta también que Breiman usa "imparcial" para salir de la rutina de la misma manera que lo usa para la validación cruzada, donde también tenemos un sesgo pesimista (pequeño). Viniendo de un campo experimental, estoy de acuerdo con decir que ambos son prácticamente imparciales ya que el sesgo generalmente es mucho menos problemático que la varianza (probablemente no estés usando bosques aleatorios si tienes el lujo de tener muchos casos) .

— cbeleites descontentos con SX
fuente

No esperaba que fuera así. Es mencionado por personas en muchos lugares, así que lo acepté. Ahora que lo he estado pensando es por eso que quería demostrarlo. Me gusta tu respuesta, déjame jugar un poco con tu información para ver qué puedo concluir.

— JEquihua

@JEquihua: Ciertamente me interesaría el resultado.

— cbeleites descontento con SX

El bosque de oob es aproximadamente 1/3 del original, no 2/3 (¡así que hay más razones para que el error de oob sea pesimista!). La probabilidad de escoger un árbol T dado para el bosque de oob de una observación dada (x, y) es la probabilidad de que (x, y) no esté en T, es decir ((N-1) / N) ^ N = ( 1 + (-1) / N) ^ N -> exp (-1) = ~ 1/3. Entonces, el tamaño esperado del bosque de oob para (x, y) es aproximadamente B / 3, si B es el tamaño del bosque original.

— memeplex

@memeplex: por supuesto, gracias por verlo. Arreglado.

— Cbeleites descontento con SX