¿Cuál es la diferencia práctica entre las reglas de asociación y los árboles de decisión en la minería de datos?


19

¿Existe una descripción realmente simple de las diferencias prácticas entre estas dos técnicas?

  • Ambos parecen ser utilizados para el aprendizaje supervisado (aunque las reglas de asociación también pueden manejar sin supervisión).

  • Ambos se pueden usar para la predicción

Lo más parecido que he encontrado a una "buena" descripción es del Statsoft Textbook . Dicen que las Reglas de asociación se usan para:

... detecta relaciones o asociaciones entre valores específicos de variables categóricas en grandes conjuntos de datos.

Mientras que los clasificadores del Árbol de decisión se describen como utilizados para:

... predice la pertenencia de casos u objetos en las clases de una variable dependiente categórica a partir de sus mediciones en una o más variables predictoras.

Sin embargo, en R Data Mining, dan un ejemplo de reglas de asociación que se utilizan con un campo de destino .

Entonces, ambos pueden usarse para predecir la pertenencia al grupo, ¿es la diferencia clave que los árboles de decisión pueden manejar datos de entrada no categóricos mientras que las reglas de asociación no pueden? ¿O hay algo más fundamental? Un sitio ( sqlserverdatamining.com ) dice que la diferencia clave es:

Las reglas de los árboles de decisión se basan en la ganancia de información, mientras que las reglas de asociación se basan en la popularidad y / o la confianza.

Entonces (posiblemente respondiendo a mi propia pregunta), ¿eso significa que las reglas de asociación se evalúan únicamente con respecto a la frecuencia con la que aparecen en el conjunto de datos (y con qué frecuencia son "verdaderas") mientras que los árboles de decisión en realidad están tratando de minimizar la varianza?

Si alguien sabe de una buena descripción que estaría dispuesto a señalarme, entonces sería genial.

Respuestas:


14

F=F1,,FmCFCF

t1={i1,i2}t2={i1,i3,i4,i5}t3={i2,i3,i4,i5}tn={i2,i3,i4,i5}
{i3,i5}{i4}

Resulta que puede usar el análisis de asociación para algunas tareas de clasificación específicas, por ejemplo, cuando todas sus características son categóricas. Solo tiene que ver los elementos como características, pero esto no es para lo que nació el análisis de asociación.


3
  • "Las reglas de asociación apuntan a encontrar todas las reglas por encima de los umbrales dados que involucran subconjuntos de registros superpuestos, mientras que los árboles de decisión encuentran regiones en el espacio donde la mayoría de los registros pertenecen a la misma clase. Por otro lado, los árboles de decisión pueden pasar por alto muchas reglas predictivas encontradas por las reglas de asociación porque se dividen sucesivamente en subconjuntos más pequeños. Cuando una regla encontrada por un árbol de decisión no se encuentra por reglas de asociación, es porque una restricción redujo el espacio de búsqueda o porque el soporte o la confianza eran demasiado altos ".

  • "Los algoritmos de reglas de asociación pueden ser lentos, a pesar de muchas optimizaciones propuestas en la literatura porque funcionan en un espacio combinatorio, mientras que los árboles de decisión pueden ser comparativamente mucho más rápidos porque cada división obtiene sucesivamente subconjuntos de registros más pequeños".

  • Otro problema es que los árboles de decisión pueden repetir el mismo atributo varias veces para la misma regla porque dicho atributo es un buen discriminador. Esto no es un gran problema ya que las reglas son conjunciones y, por lo tanto, la regla se puede simplificar a un intervalo para el atributo, pero dicho intervalo será generalmente pequeño y la regla demasiado específica ".

Extractos de:

Ordóñez, C. y Zhao, K. (2011). Evaluación de reglas de asociación y árboles de decisión para predecir múltiples atributos objetivo. Análisis inteligente de datos, 15 (2), 173-192.

Un buen artículo que cubre este tema, definitivamente vale la pena leerlo.


2

Podemos argumentar que tanto las reglas de asociación como los árboles de decisión sugieren un conjunto de reglas para el usuario y, por lo tanto, ambos son similares, pero debemos entender la diferencia teórica entre los árboles de decisión y las reglas de asociación, y además cómo las reglas sugeridas por ambos son diferentes en significado o en uso.

En primer lugar, el árbol de decisión es un enfoque supervisado donde el algoritmo intenta predecir un "resultado". Un ejemplo típico de un "resultado" en situaciones de la vida real podría ser, por ejemplo, abandono, fraude, respuesta a una campaña, etc. Por lo tanto, las reglas del árbol de decisión se utilizan para predecir un resultado.

El aprendizaje de reglas de asociación es un enfoque no supervisado en el que el algoritmo intenta encontrar asociaciones entre elementos, a menudo dentro de grandes bases de datos comerciales. Un ejemplo típico de una gran base de datos comercial es una que contiene transacciones de minoristas, como el historial de compras de clientes en un sitio web de comercio electrónico. Los artículos pueden ser productos comprados en tiendas o películas que se ven en una plataforma de transmisión en línea. El aprendizaje de reglas de asociación se trata de cómo la compra de un producto está induciendo la compra de otro producto.

En segundo lugar, los árboles de decisión se construyen sobre la base de algunas métricas de impureza / incertidumbre, por ejemplo, ganancia de información, coeficiente de Gini o entropía, mientras que las reglas de asociación se derivan de apoyo, confianza y elevación.

En tercer lugar, como el árbol de decisión es un enfoque "supervisado", su precisión es medible, mientras que el aprendizaje de reglas de asociación es un enfoque "no supervisado", por lo que su precisión es subjetiva.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.