(La respuesta de Hamner es excelente, así que solo publique mi respuesta de MetaOptimize para completarla).
Pienso en los algoritmos generativos como un modelo de cómo se generan realmente los datos (pienso en ellos como un modelo de y , en lugar de , aunque supongo que es equivalente), y algoritmos discriminativos que simplemente proporcionan divisiones de clasificación (y no necesariamente de manera probabilística).P(X|Y)P(Y)P(X,Y)
Compare, por ejemplo, los modelos de mezcla gaussiana y la agrupación de k-media. En el primero, tenemos un buen modelo probabilístico de cómo se generan los puntos (elija un componente con cierta probabilidad y luego emita un punto mediante el muestreo de la distribución gaussiana del componente), pero no hay nada que podamos decir realmente sobre el último.
Tenga en cuenta que los algoritmos generativos tienen propiedades discriminatorias, ya que puede obtener una vez que tiene y (según el Teorema de Bayes), aunque los algoritmos discriminativos realmente no tienen propiedades generativas.P(Y|X)P(X|Y)P(Y)
1: Los algoritmos discriminativos le permiten clasificar puntos, sin proporcionar un modelo de cómo se generan realmente los puntos. Entonces estos podrían ser:
- los algoritmos probabilísticos intentan aprender (por ejemplo, regresión logística);P(Y|X)
- o algoritmos no probabilísticos que intentan aprender los mapeos directamente desde los puntos a las clases (por ejemplo, perceptrón y SVM simplemente le dan un hiperplano de separación, pero ningún modelo para generar nuevos puntos).
Entonces, sí, los clasificadores discriminativos son clasificadores que no son generativos.
Otra forma de pensar sobre esto es que los algoritmos generativos hacen algún tipo de suposiciones de estructura en su modelo , pero los algoritmos discriminativos hacen menos suposiciones. Por ejemplo, Naive Bayes asume la independencia condicional de sus características, mientras que la regresión logística (la "contraparte" discriminatoria de Naive Bayes) no.
2: Sí, Naive Bayes es generativo porque captura y . Por ejemplo, si sabemos que y , junto con las probabilidades de palabras en inglés y francés, ahora podemos generar un nuevo documento eligiendo primero el idioma del documento ( Inglés con probabilidad 0.7, francés con probabilidad 0.3), y luego generar palabras de acuerdo con las probabilidades de palabras del idioma elegido.P(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3
Sí, supongo que podría hacer que la regresión logística sea generativa de esa manera, pero es solo porque está agregando algo a la regresión logística que aún no existe. Es decir, cuando realiza una clasificación Naive Bayes, calcula directamente (los términos a la derecha, y , son los que le permiten generar un nuevo documento); pero cuando calcula en regresión logística, no calcula estas dos cosas, solo aplica una función logística a un producto de puntos.P(Y|X)∝P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)
3: Los modelos generativos a menudo superan a los modelos discriminativos en conjuntos de datos más pequeños porque sus supuestos generativos colocan cierta estructura en su modelo que evita el sobreajuste . Por ejemplo, consideremos Naive Bayes vs. Regresión logística. La suposición de Naive Bayes, por supuesto, rara vez se cumple, por lo que la regresión logística tenderá a superar a Naive Bayes a medida que crezca su conjunto de datos (ya que puede capturar dependencias que Naive Bayes no puede). Pero cuando solo tiene un pequeño conjunto de datos, la regresión logística puede detectar patrones espurios que realmente no existen, por lo que Naive Bayes actúa como una especie de regularizador en su modelo que evita el sobreajuste. Hay un artículo de Andrew Ng y Michael Jordan sobre clasificadores discriminativos contra generadores que habla más sobre esto.
4: Creo que lo que significa es que los modelos generativos realmente pueden aprender la estructura subyacente de los datos si especificas tu modelo correctamente y el modelo realmente se mantiene, pero los modelos discriminativos pueden tener un rendimiento superior en caso de que tus suposiciones generativas no se cumplan (ya que los algoritmos discriminativos son menos atado a una estructura particular, y el mundo real es desordenado y las suposiciones rara vez se satisfacen perfectamente de todos modos). (Probablemente ignore estas citas si son confusas).