Dada una secuencia de entradas, necesito determinar si esta secuencia tiene cierta propiedad deseada. La propiedad solo puede ser verdadera o falsa, es decir, solo hay dos clases posibles a las que puede pertenecer una secuencia.
La relación exacta entre la secuencia y la propiedad no está clara, pero creo que es muy consistente y debería prestarse a una clasificación estadística. Tengo una gran cantidad de casos para entrenar al clasificador, aunque puede ser un poco ruidoso, en el sentido de que hay una ligera probabilidad de que a una secuencia se le asigne la clase incorrecta en este conjunto de entrenamiento.
Ejemplo de datos de entrenamiento:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
En términos generales, la propiedad está determinada por el conjunto de valores en la secuencia (por ejemplo, la presencia de un "11" significa que la propiedad seguramente será falsa), así como el orden de los valores (por ejemplo, "21 7 5 "aumenta significativamente la posibilidad de que la propiedad sea verdadera).
Después del entrenamiento, debería poder darle al clasificador una secuencia que no se había visto anteriormente, como (1 21 7 5 3)
, y debería generar su confianza de que la propiedad es verdadera. ¿Existe un algoritmo bien conocido para entrenar a un clasificador con este tipo de entradas / salidas?
He considerado el ingenuo clasificador bayesiano (que no es realmente adaptable al hecho de que el orden importa, al menos no sin romper severamente la suposición de que las entradas son independientes). También he investigado el enfoque oculto del modelo de Markov, que parece ser inaplicable porque solo hay una salida disponible, en lugar de una salida por entrada. ¿Qué me perdí?