Algoritmo para optimizar árboles de decisión

Antecedentes

Un árbol de decisión binario es un árbol enraizado donde cada nodo interno (y raíz) está etiquetado por un índice modo que ninguna ruta de raíz a hoja repita un índice, las hojas están etiquetados por salidas en , y cada borde está etiquetado por para el hijo izquierdo y para el hijo derecho. Para aplicar un árbol a una entrada : $T$ $j \in \{1,..., n\}$ $\{A,B\}$ $0$ $1$ $x$

Comience en la raíz
si está en la hoja, imprime la etiqueta de la hoja $A$ o $B$ y termina
Lea la etiqueta $j$ de su nodo actual, si $x_j = 0$ luego muévase al hijo izquierdo y si $x_j = 1$ luego muévase al hijo derecho.
saltar al paso (2)

El árbol se usa como una forma de evaluar funciones, en particular decimos que un árbol $T$ representa una función total $f$ si para cada $x \in \{0,1\}^n$ tenemos $T(x) = f(x)$ . La complejidad de la consulta de un árbol es su profundidad, y la complejidad de la consulta de una función es la profundidad del árbol más pequeño que lo representa.

Problema

Dado un árbol de decisión binario T, sale un árbol de decisión binario T 'de profundidad mínima de tal manera que T y T' representan la misma función.

Pregunta

¿Cuál es el algoritmo más conocido para esto? ¿Se conocen límites inferiores? ¿Qué pasa si sabemos que la $\text{depth}(T') = O(\log \text{depth}(T))$ ? ¿Qué pasa si solo requerimos que $T'$ tenga aproximadamente una profundidad mínima?

Enfoque ingenuo

El enfoque ingenuo se da para enumerar de forma recursiva todos los árboles de decisión binarios de profundidad mientras se prueba si se evalúan a lo mismo que . Esto parece requerir $d = \text{depth}(T)$ $d - 1$ $T$ pasos (suponiendo que se necesitanpasos para verificar quéevalúa para unaarbitraria). ¿Hay un mejor enfoque? $O(\frac{d 2^n n!}{(n - d)!})$ $d$ $T(x)$ $x$

Motivación

Esta pregunta está motivada por una pregunta previa sobre el equilibrio entre la complejidad de la consulta y la complejidad del tiempo . En particular, el objetivo es limitar la separación de tiempo para las funciones totales. Podemos hacer un árbol partir de un algoritmo de tiempo óptimo con tiempo de ejecución , y luego nos gustaría convertirlo en un árbol para un algoritmo de consulta óptimo. Desafortunadamente, si (Y a menudo $T$ $t$ $T'$ $t \in O(n!/(n - d)!)$ $d \in \Theta(n)$ ) el cuello de botella es la conversión. ¡Sería bueno si pudiéramos reemplazar por algo como . $n!/(n - d)!$ $2^d$

ds.algorithms query-complexity decision-trees

— Artem Kaznatcheev
fuente

Encontrar el árbol de decisión óptimo es NP-completo. Me enseñaron que en las clases de Teoría de la decisión y Minería de datos, sin embargo, se basaban en notas y no conozco el documento original que introdujo el resultado.

— chazisop

@chazisop genial, gracias. No es obvio para mí que encontrar el árbol de decisión óptimo está en NP, pero lo pensaré / buscaré un poco más. A veces, conocer el enunciado del teorema está a medio camino de demostrarlo: D.

— Artem Kaznatcheev

Creo que la primera referencia para esto es: Límites más bajos en las listas y árboles de decisiones de aprendizaje. (Hancock et al. 1994) cs.uwaterloo.ca/~mli/dl.ps

— Lev Reyzin

La prueba de que encontrar el árbol de decisión óptimo es un problema de NP completo fue dada por Laurent Hyafil y Ronald L. Rivest en La construcción de árboles de decisión binarios óptimos es NP-complete (1976). referencia: aquí

— antoine

Tengo 3 respuestas, todas dando resultados de dureza algo diferentes.

Sea alguna función. $f: \{0,1\}^n \rightarrow \{0,1\}$

respuesta 1

Dado un árbol de decisión calcula un número, es NP-difícil saber si existe un árbol de decisión computa de tamaño como máximo ese número. $T$ $f$ $T'$ $f$ ( Zantema y Bodlaender '00 )

Respuesta 2

Dado un árbol de decisión computa , es NP difícil aproximar el árbol de decisión más pequeño que computa a cualquier factor constante. $T$ $f$ $f$ ( Sieling '08 )

Respuesta 3

Sea el tamaño del árbol de decisión más pequeño que computa . Dado un árbol de decisión calcula , suponiendo para algunos , no se puede encontrar un árbol de decisión equivalente de tamaño para cualquier . $s$ $f$ $T$ $f$ $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $T'$ $s^k$ $k \ge 0$

Creo que esta respuesta más sólida (que se basa en una suposición más débil) puede hacerse a partir de resultados conocidos en la teoría del aprendizaje de algoritmos de Occam para árboles de decisión, a través del siguiente argumento:

¿Es posible encontrar un árbol de decisión en variables en el tiempo , donde es el árbol de decisión más pequeño consistente con ejemplos provenientes de una distribución (modelo PAC). ( Blum '92 ) $n$ $n^{\log s}$ $s$
Suponiendo por alguna , no podemos PAC aprender de tamaño árboles de decisión según el tamaño árboles de decisión para cualquier . ( Alekhnovich et al. '07 ) $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $s$ $s^k$ $k \ge 0$

Estos dos resultados parecen implicar un resultado de dureza para su problema. Por un lado (1), podemos encontrar un gran árbol de decisión; por otro lado (2), no deberíamos poder minimizarlo para obtener un equivalente "pequeño", de tamaño , incluso cuando exista uno de tamaño . $s^k$ $s$

— Lev Reyzin
fuente

(Encontré su respuesta de esta respuesta , que se publicó hace menos de una hora).

$\:$ Parece que "

" se puede reemplazar con "positivo

, ya que al disminuir

el lado derecho de la contención es más pequeño .

ϵ < 1

$\epsilon < 1$

ϵ

$\epsilon$

ϵ

$\epsilon$

$\:$ Además, ¿en qué parte del documento se muestra 2.?

$\;\;\;\;$

Vea el punto # 2 en el resumen aquí: investigcher.watson.ibm.com/researcher/files/us-vitaly/…

— Lev Reyzin

(viniendo de la misma respuesta que Ricky Demer) ¿podría detallar un poco más cómo obtener la "respuesta 3" de los puntos 1. y 2.? No estoy muy familiarizado con el aprendizaje de la teoría y me resulta difícil conectar las partes ...

— Marc

Este problema de coherencia y capacidad de aprendizaje están estrechamente relacionados a través de la maquinilla de afeitar de Occam. La idea es que si puede encontrar una función consistente de un conjunto pequeño, puede tener éxito en el aprendizaje PAC. Por lo tanto, un resultado de dureza de aprendizaje implica un resultado de "dureza de consistencia". No estoy seguro de cuánto más puedo explicar en un comentario ...

— Lev Reyzin

Por lo que yo entiendo, el algoritmo evocado para 1. no se ejecuta a tiempo

que sería necesario para contradecir a 2. (el resultado preciso en el artículo si lo obtuve correctamente) dice que no existe un algoritmo de aprendizaje polytime para árboles de decisión). Por lo tanto, puede haber un problema con su argumentación.

P o l y (n, s)

$Poly(n,s)$

— Marc