Para empezar, usaría la teoría de la probabilidad y luego elegiría el algoritmo que mejor calcule qué teoría de la probabilidad le dice que haga. Por lo que tienen una formación de datos , y algunos nuevos precursores , y un objeto de clasificar , así como su información antes .TXYyo
Por lo que desea saber sobre . Entonces la teoría de la probabilidad dice, solo calcule su probabilidad, condicional a toda la información que tenga disponible.Y
PAGS( YEl | T, X, I)
Ahora podemos usar cualquiera de las reglas de la teoría de la probabilidad para manipular esto en cosas que sí sabemos calcular. Entonces, usando el teorema de Bayes, obtienes:
PAGS( YEl | T, X, I) = P( YEl | T, I) P( XEl | Y, T, I)PAGS( XEl | T, I)
Ahora es generalmente fácil, a menos que su información previa pueda decirle algo sobre más allá de los datos de entrenamiento (por ejemplo, correlaciones), entonces está dado por la regla de sucesión, o básicamente la fracción observada de veces fue cierto en el conjunto de datos de entrenamiento.PAGS( YEl | T, I)YY
Para el segundo término : este es su modelo, y hacia dónde irá la mayor parte de su trabajo, y dónde diferentes algoritmos harán diferentes cosas. es un poco una bestia cruel para calcular, por lo que hacemos el siguiente truco para evitar tener que hacer esto: tomar las probabilidades de contra (es decir, no ). Y obtenemos:PAGS( XEl | Y, T, I)PAGS( XEl |T,I)YY¯¯¯¯Y
O ( YEl | T, X, I) = P( YEl | T, X, I)PAGS( Y¯¯¯¯El | T, X, I)= P( YEl | T, I)PAGS( Y¯¯¯¯El | T, I)PAGS( XEl | Y, T, I)PAGS( XEl | Y¯¯¯¯, T, I)
Ahora, básicamente, necesita una regla de decisión: cuando la probabilidad / probabilidad está por encima de cierto umbral, clasificará como "verdadero", de lo contrario lo clasificará como "falso". Ahora nadie puede realmente ayudarlo con esto: es una decisión que depende de las consecuencias de tomar decisiones correctas e incorrectas. Este es un ejercicio subjetivo, y solo el contexto adecuado puede responderlo. Por supuesto, la "subjetividad" solo importará si existe una alta incertidumbre (es decir, si tiene un modelo / datos "basura" que no pueden distinguir los dos muy bien).Y
La segunda cantidad: el modelo es un modelo "predictivo". Suponga que la información previa indica un modelo único que depende del parámetro . Entonces la cantidad viene dada por:PAGS( XEl | Y, T, I)θY
PAGS( XEl | Y, T, I) = ∫PAGS( X, θYEl | Y, T, I) dθ = ∫PAGS( XEl | θY, Y, T, I) P( θYEl | Y, T, I) dθY
Ahora, si su modelo es de la variedad "iid", entonces . Pero si tiene un modelo dependiente, como uno autorregresivo, entonces aún puede ser importante. Y es la distribución posterior de los parámetros en el modelo; esta es la parte que determinarían los datos de entrenamiento. Y aquí es probablemente donde irá la mayor parte del trabajo.PAGS( XEl | θY, Y, T, I) = P( XEl | θY, Y, I)TPAGS( θYEl | Y, T, I)
Pero, ¿qué pasa si el modelo no se conoce con certeza? bueno, se convierte en otro parámetro molesto para integrar, tal como se hizo para . Llame al i-ésimo modelo y su conjunto de parámetros , y la ecuación se convierte en:θYMETROyoθ( i )Y
PAGS( XEl | Y, T, I) = ∑yoPAGS( MyoEl | Y, T, I) ∫PAGS( XEl | θ( i )Y, Myo, Y, T, I) P( θ( i )YEl | METROyo, Y, T, I) dθ( i )Y
Donde
PAGS( MyoEl | Y, T, I) = P( MyoEl | Y, I) ∫PAGS( θ( i )YEl | METROyo, Y, I) P( TEl | θ( i )Y, Myo, Y, I) dθ( i )Y
(NOTA: es una proposición de la forma "el modelo i-ésimo es el mejor en el conjunto que se está considerando". Y no se permiten previos impropios si se está integrando sobre modelos: los infinitos no se cancelan en este caso, y usted quedará sin sentido)METROyo
Ahora, hasta este punto, todos los resultados son exactos y óptimos (esta es la opción 2: aplicar un algoritmo increíble a los datos). Pero esta es una tarea desalentadora para emprender. En el mundo real, las matemáticas requeridas pueden no ser factibles en la práctica, por lo que tendrá que comprometerse. siempre debe "intentar" hacer las ecuaciones exactas, ya que cualquier matemática que pueda simplificar le ahorrará tiempo en la PC. Sin embargo, este primer paso es importante porque establece "el objetivo" y deja en claro lo que se debe hacer. De lo contrario, queda (como parece) con una gran cantidad de opciones potenciales sin nada que elegir entre ellas.
Ahora en esta etapa, todavía estamos en el mundo de la "lógica simbólica", donde nada tiene realmente sentido. Por lo tanto, debe vincularlos a su problema específico:
- PAGS( MyoEl | Y, I) es la probabilidad previa para el i-ésimo modelo; generalmente será igual para todo i.
- PAGS( θ( i )YEl | METROyo, Y, I) es el previo para los parámetros en el i-ésimo modelo (¡debe ser apropiado!)
- PAGS( TEl | θ( i )Y, Myo, Y, I) es la función de probabilidad para los datos de entrenamiento, dado el i-ésimo modelo
- PAGS( θ( i )YEl | T, Myo, Y, I) es la parte posterior de los parámetros en el modelo i-ésimo, condicional a los datos de entrenamiento.
- PAGS( MyoEl | Y, T, I) es la posterior para el i-ésimo modelo condicional en los datos de entrenamiento
Habrá otro conjunto de ecuaciones paraY¯¯¯¯
Tenga en cuenta que las ecuaciones se simplificarán enormemente si a) un modelo es un claro ganador, de modo que yb) dentro de este modelo, sus parámetros son muy precisos, por lo que integrand se asemeja a una función delta (y la integración está muy cerca de las estimaciones de sustitución o plug-in). Si se cumplen estas dos condiciones, tiene:PAGS( MjEl | Y, T, I) ≈ 1
PAGS( XEl | Y, T, I) ≈ P( XEl | θ( j )Y, Mj, Y, T, I)θ( j )Y= θ^( j )Y
¿Cuál es el enfoque "estándar" para este tipo de problema?