Estoy estudiando un curso de aprendizaje automático y las diapositivas de la conferencia contienen información que encuentro contradictoria con el libro recomendado.
El problema es el siguiente: hay tres clasificadores:
- clasificador A que proporciona un mejor rendimiento en el rango inferior de los umbrales,
- clasificador B que proporciona un mejor rendimiento en el rango más alto de los umbrales,
- clasificador C lo que obtenemos volteando una p-moneda y seleccionando entre los dos clasificadores.
¿Cuál será el rendimiento del clasificador C, como se ve en una curva ROC?
Las diapositivas de la conferencia indican que con solo lanzar esta moneda, obtendremos el mágico " casco convexo " de la curva ROC del clasificador A y B.
No entiendo este punto. Simplemente lanzando una moneda, ¿cómo podemos obtener información?
La diapositiva de la conferencia
Lo que dice el libro
El libro recomendado ( Data Mining ... por Ian H. Witten, Eibe Frank y Mark A. Hall ) por otro lado afirma que:
Para ver esto, elija un límite de probabilidad particular para el método A que proporcione tasas positivas verdaderas y falsas de tA y fA, respectivamente, y otro límite para el método B que proporcione tB y fB. Si utiliza estos dos esquemas al azar con probabilidades p y q, donde p + q = 1, obtendrá tasas positivas verdaderas y falsas de p. tA + q. tB y p. fA + q. pensión completa. Esto representa un punto que se encuentra en la línea recta que une los puntos (tA, fA) y (tB, fB), y al variar p y q puede trazar la línea completa entre estos dos puntos.
Según tengo entendido, lo que dice el libro es que para obtener información y llegar al casco convexo, necesitamos hacer algo más avanzado que simplemente lanzar una moneda p.
AFAIK, la forma correcta (como lo sugiere el libro) es la siguiente:
- deberíamos encontrar un umbral óptimo Oa para el clasificador A
- deberíamos encontrar un umbral óptimo Ob para el clasificador B
defina C de la siguiente manera:
- Si t <Oa, use el clasificador A con t
- Si t> Ob, use el clasificador B con t
- Si Oa <t <Ob, elija entre el clasificador A con Oa y B con Ob por la probabilidad como una combinación lineal de dónde estamos entre Oa y Ob.
¿Es esto correcto? En caso afirmativo, hay algunas diferencias clave en comparación con lo que sugieren las diapositivas.
- No es un simple lanzamiento de moneda, sino un algoritmo más avanzado que necesita puntos y selecciones definidas manualmente en función de la región en la que caemos.
- Nunca usa el clasificador A y B con valores umbral entre Oa y Ob.
¿Puede explicarme este problema y cuál es la forma correcta de entenderlo si mi comprensión no es correcta?
¿Qué sucedería si simplemente volteáramos una moneda p como lo sugieren las diapositivas? Creo que obtendríamos una curva ROC que está entre A y B, pero nunca "mejor" que la mejor en un punto dado.
Por lo que puedo ver, realmente no entiendo cómo las diapositivas podrían ser correctas. El cálculo probabilístico en el lado izquierdo no tiene sentido para mí.
Actualización: encontré el artículo escrito por el autor original que inventó el método de casco convexo: http://www.bmva.org/bmvc/1998/pdf/p082.pdf