Combinando clasificadores lanzando una moneda

Estoy estudiando un curso de aprendizaje automático y las diapositivas de la conferencia contienen información que encuentro contradictoria con el libro recomendado.

El problema es el siguiente: hay tres clasificadores:

clasificador A que proporciona un mejor rendimiento en el rango inferior de los umbrales,
clasificador B que proporciona un mejor rendimiento en el rango más alto de los umbrales,
clasificador C lo que obtenemos volteando una p-moneda y seleccionando entre los dos clasificadores.

¿Cuál será el rendimiento del clasificador C, como se ve en una curva ROC?

Las diapositivas de la conferencia indican que con solo lanzar esta moneda, obtendremos el mágico " casco convexo " de la curva ROC del clasificador A y B.

No entiendo este punto. Simplemente lanzando una moneda, ¿cómo podemos obtener información?

La diapositiva de la conferencia

diapositivas de conferencias

Lo que dice el libro

El libro recomendado ( Data Mining ... por Ian H. Witten, Eibe Frank y Mark A. Hall ) por otro lado afirma que:

Para ver esto, elija un límite de probabilidad particular para el método A que proporcione tasas positivas verdaderas y falsas de tA y fA, respectivamente, y otro límite para el método B que proporcione tB y fB. Si utiliza estos dos esquemas al azar con probabilidades p y q, donde p + q = 1, obtendrá tasas positivas verdaderas y falsas de p. tA + q. tB y p. fA + q. pensión completa. Esto representa un punto que se encuentra en la línea recta que une los puntos (tA, fA) y (tB, fB), y al variar p y q puede trazar la línea completa entre estos dos puntos.

Según tengo entendido, lo que dice el libro es que para obtener información y llegar al casco convexo, necesitamos hacer algo más avanzado que simplemente lanzar una moneda p.

AFAIK, la forma correcta (como lo sugiere el libro) es la siguiente:

deberíamos encontrar un umbral óptimo Oa para el clasificador A
deberíamos encontrar un umbral óptimo Ob para el clasificador B
defina C de la siguiente manera:
- Si t <Oa, use el clasificador A con t
- Si t> Ob, use el clasificador B con t
- Si Oa <t <Ob, elija entre el clasificador A con Oa y B con Ob por la probabilidad como una combinación lineal de dónde estamos entre Oa y Ob.

¿Es esto correcto? En caso afirmativo, hay algunas diferencias clave en comparación con lo que sugieren las diapositivas.

No es un simple lanzamiento de moneda, sino un algoritmo más avanzado que necesita puntos y selecciones definidas manualmente en función de la región en la que caemos.
Nunca usa el clasificador A y B con valores umbral entre Oa y Ob.

¿Puede explicarme este problema y cuál es la forma correcta de entenderlo si mi comprensión no es correcta?

¿Qué sucedería si simplemente volteáramos una moneda p como lo sugieren las diapositivas? Creo que obtendríamos una curva ROC que está entre A y B, pero nunca "mejor" que la mejor en un punto dado.

Por lo que puedo ver, realmente no entiendo cómo las diapositivas podrían ser correctas. El cálculo probabilístico en el lado izquierdo no tiene sentido para mí.

Actualización: encontré el artículo escrito por el autor original que inventó el método de casco convexo: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

— hipernudo
fuente

Según mi lectura de la diapositiva que publicas y del extracto del libro, parecen estar describiendo exactamente lo mismo, y las diapositivas no están equivocadas.

— cardenal

Tenga en cuenta que tampoco es demasiado difícil construir una simulación para convencerse del hecho establecido en la diapositiva. La única dificultad que puede tener es construir dos curvas ROC que se vean más o menos así, pero es manejable, por ejemplo, usando un modelo de mezcla gaussiana para generar las observaciones y algunas reglas de decisión subóptimas.

— cardenal

Respuestas:

(Editado)

Las diapositivas de la conferencia son correctas.

El Método A tiene un "punto óptimo" que proporciona tasas positivas verdaderas y falsas de (TPA, FPA en el gráfico) respectivamente. Este punto correspondería a un umbral, o más en general [*] un límite de decisión óptimo para A. Lo mismo ocurre con B. (Pero los umbrales y los límites no están relacionados).

Se ve que el clasificador A funciona bien bajo la preferencia "minimizar los falsos positivos" (estrategia conservadora) y el clasificador B cuando queremos "maximizar los verdaderos positivos" (estrategia entusiasta).

~~La respuesta a su primera pregunta es básicamente sí, excepto que la probabilidad de la moneda es (en cierto sentido) arbitraria. El clasiffier final sería:~~

~~$x$ $x$ $p$~~

(Corregido: en realidad, las conferencias son completamente correctas, podemos lanzar la moneda en cualquier caso. Ver diagramas)

$p$

[*] Deberías ser general aquí: si piensas en términos de un solo umbral escalar, todo esto tiene poco sentido; una característica unidimensional con un clasificador basado en el umbral no le brinda suficientes grados de libertad para tener diferentes clasificadores como A y B, que se desempeñan a lo largo de diferentes curvas cuando los parámetros libres (límite de decisión = umbral) varían. En otras palabras: A y B se llaman "métodos" o "sistemas", no "clasificadores"; porque A es una familia completa de clasificadores, parametrizados por algún parámetro (escalar) que determina un límite de decisión, no solo un escalar]

Agregué algunos diagramas para que quede más claro:

ingrese la descripción de la imagen aquí

$t$ $t$ $t$ $t_A=2$ $t$ $t_B=4$

En este escenario, entonces, se puede decir que la línea naranja llena es el "clasificador A óptimo" (dentro de su familia), y lo mismo para B. Pero no se puede decir si la línea naranja es mejor que la línea azul: uno realiza mejor cuando asignamos un alto costo a los falsos positivos, y el otro cuando los falsos negativos son mucho más costosos.

ingrese la descripción de la imagen aquí

Ahora, puede suceder que estos dos clasificadores sean demasiado extremos para nuestras necesidades, nos gustaría que ambos tipos de errores tengan pesos similares. Preferiríamos, en lugar de usar el clasificador A (punto naranja) o B (punto azul) para lograr un rendimiento que está entre ellos. Como dice el curso, uno puede lograr ese resultado con solo lanzar una moneda y elegir uno de los clasificadores al azar.

Simplemente lanzando una moneda, ¿cómo podemos obtener información?

No ganamos información. Nuestro nuevo clasificador aleatorio no es simplemente "mejor" que A o B, su rendimiento es una especie de promedio de A y B, en lo que respecta a los costos asignados a cada tipo de error. Eso puede ser o no beneficioso para nosotros, dependiendo de cuáles sean nuestros costos.

AFAIK, la forma correcta (como sugiere el libro) es la siguiente ... ¿Es esto correcto?

$p$

— leonbloy
fuente

@leonboy Creo que x es el umbral y para valores bajos de x clasificador A funciona mejor. Para valores altos de x, el clasificador B funciona mejor. Por mejor quiero decir para la tasa de falsos positivos dada, la tasa positiva verdadera es la más alta. Si todo lo que sabemos es que A funciona mejor hasta un solo punto donde se cruzan y B para todos los umbrales por encima de eso, entonces cualquier algoritmo que le dé un peso inferior a 1 a A en la región entre FPa y FPb donde A tiene el TP más alto no puede funcionar así como A. Por lo tanto, dicho algoritmo C tiene que caer por debajo de A en esa región.

— Michael R. Chernick

De manera similar, en la región entre FPa y FPb donde TP es mayor para B, ningún algoritmo con p mayor que 0 funcionará mejor que B. La fórmula para TPc es correcta, pero un promedio ponderado fijo entre TPb y TPa no puede ser mayor que el mayor de TPa y TPb. Tiene que caer entre ellos. Pero el diagrama siempre muestra TPc sobre TPa y TPb en toda la región desde FPa y FPb. ¿Ves algo aquí que nos estamos perdiendo? No lo encuentro en tu respuesta.

— Michael R. Chernick

Está bien, la bombilla se apagó! X es un vector en tu mente en lugar de un umbral escalar. ¿Eso realmente cambia algo? El FP aixs es una probabilidad escalar. Mi punto de cruce es el punto de igualdad de FP para A y B. Podría haber muchos vectores X que conducen a él. Solo digo que en cualquier punto del eje FP entre FPa y FPb. TPc = p TPa + (1-p) TPb. La línea en la gráfica está en el plano TP vs FP. ¿Cómo podría esa línea pasar por los puntos por encima de las curvas para A y B como cuestionó el OP (creo que correctamente)?

— Michael R. Chernick

@Michael: Creo que A y B son métodos distintos que dan decisiones de límites diferentes. Cada uno tiene un parámetro ajustable (lo que en 1D es un umbral), los parámetros son independientes y dan (para cada uno) una familia de clasificadores. Trataré de trazar un diagrama para tratar de aclarar, espera.

— leonbloy

Le di a leonbloy un voto positivo por esa bonita descripción. Pero me gusta el comentario final del cardenal porque ese argumento es claro para mí y está de acuerdo con mi último pensamiento. @leobloy Lo único que falta en su diagrama es una gráfica de los puntos para la regla aleatoria que supera a los dos individuales. Supongo que puede describir la nueva regla como una que pondera los dos errores de manera diferente, pero no es necesario y creo que es menos confuso si deja de lado ese argumento.

— Michael R. Chernick

Estoy de acuerdo con tu razonamiento. Si usa el clasificador lanzando monedas para elegir uno cuando se encuentra entre los puntos A y B, ¡su punto en la curva siempre estará por debajo del mejor clasificador y por encima del peor, y posiblemente no por encima de ambos! Debe haber algo mal con el diagrama. En el punto donde las 2 curvas ROC se cruzan, el algoritmo de selección aleatoria tendrá el mismo rendimiento que los dos algoritmos. No estará por encima de la forma en que lo representa el diagrama.

— Michael R. Chernick
fuente

Creo que la diapositiva es correcta. Si usa dos procedimientos de decisión diferentes con dos umbrales diferentes y luego toma una decisión aleatoria, obtendrá una combinación convexa que dará un punto entre los dos. Este punto puede estar por encima de ambas ( ! ) De las curvas a la misma tasa de falsos positivos. Esto se debe a que el umbral utilizado para cada procedimiento es diferente en ese punto.

— cardenal

Entonces, A y B en la combinación convexa es diferente de A y B que se eligen individualmente a esa tasa de falsos positivos. Simplemente creo que el diagrama era confuso ya que no vi que A y B fueran seleccionados de una familia de clasificadores.

— Michael R. Chernick

A

$A$

B

$B$

¡Creo que esta respuesta es la correcta, junto con el comentario del cardenal! Salir del área de intersección puede suceder, pero no es un método. ¡Encontré el documento original del tipo que inventó este método, y lo explica muy bien! bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot

@zsero: Creo que incluso Michael reconocerá que esta respuesta se basó en la comprensión del diagrama en el momento en que se publicó la respuesta y su interpretación ha cambiado desde que aparecieron los comentarios y otra respuesta. Tal como se muestra en la figura, se puede lograr mediante la aleatorización cualquier punto en cualquier línea entre un punto en la primera curva y un punto en la segunda, incluso si la tasa positiva verdadera resultante domina las otras dos curvas para una tasa falsa positiva dada.

— cardenal