Inicialmente pregunté esto en el desbordamiento de la pila y me remitieron a este sitio, así que aquí va:
Estoy implementando algunos métodos no supervisados de resumen de documentos basados en selección / extracción de contenido y estoy confundido acerca de lo que mi libro de texto llama la "relación de probabilidad de registro". El libro Speech and Language Processing de Jurafsky & Martin lo describe brevemente como tal:
El LLR para una palabra, generalmente llamada lambda (w), es la relación entre la probabilidad de observar w tanto en la entrada como en el corpus de fondo asumiendo probabilidades iguales en ambos cuerpos, y la probabilidad de observar w en ambos asumiendo diferentes probabilidades para w en la entrada y el corpus de fondo.
Desglosando eso, tenemos el numerador: "la probabilidad de observar w tanto en la entrada como en el corpus de fondo suponiendo probabilidades iguales en ambos cuerpos" - ¿Cómo calculo qué probabilidad usar aquí?
y el denominador: "la probabilidad de observar w en ambos asumiendo diferentes probabilidades para w en la entrada y el corpus de fondo". ¿Es tan simple como la probabilidad de que la palabra aparezca en la entrada multiplicada por la probabilidad de que la palabra aparezca en el corpus? ex:
(recuento (palabra, entrada) / palabras totales en entrada) * (recuento (palabra, corpus) / palabras totales en corpus)
He estado revisando un artículo al que hace referencia mi libro, Métodos precisos para las estadísticas de sorpresa y coincidencia (Dunning 1993), pero me resulta difícil relacionarme con el problema de calcular los valores de LLR para palabras individuales en el resumen basado en la extracción. Cualquier aclaración aquí sería muy apreciada.