Me gustaría utilizar datos no atómicos, como una característica para una predicción. Supongamos que tengo una tabla con estas características:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Me gustaría predecir / clasificar, por ejemplo, la Columna 2.
Estoy haciendo algo para responder automáticamente a las preguntas, cualquier tipo de pregunta, como "¿Dónde nació Foo?" ...
Primero hago una consulta a un motor de búsqueda, luego obtengo algunos datos de texto como resultado, luego hago todo el análisis (etiquetado, derivación, análisis, división ...)
Mi primer enfoque fue hacer una tabla, cada fila con una línea de texto y muchas características, como "Primera palabra", "Etiqueta de la primera palabra", "Trozos", etc.
Pero con este enfoque me faltan las relaciones entre las oraciones.
Me gustaría saber si hay un algoritmo que mira dentro de las estructuras de árbol (o vectores) y hace las relaciones y extrae lo que sea relevante para predecir / clasificar. Prefiero saber sobre una biblioteca que hace eso que un algoritmo que tengo que implementar.