Preguntas etiquetadas con language-models

3
En el suavizado de Kneser-Ney, ¿cómo se manejan las palabras invisibles?
Por lo que he visto, la fórmula de suavizado de Kneser-Ney (segundo orden) se da de una forma u otra como P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} con el factor de normalización dado comoλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= …

1
¿Cuáles son los pros y los contras de aplicar información mutua puntual en una matriz de coincidencia de palabras antes de SVD?
Una forma de generar incrustaciones de palabras es la siguiente ( espejo ): Obtenga un corpus, por ejemplo, "Me gusta volar. Me gusta la PNL. Me gusta el aprendizaje profundo". Construya la matriz de concordancia de palabras a partir de ella: Realice SVD en y mantenga las primeras columnas de …


3
Con respecto al uso del modelo bigram (N-gram) para construir un vector de características para documentos de texto
Un enfoque tradicional de construcción de características para la minería de texto es el enfoque de bolsa de palabras, y puede mejorarse usando tf-idf para configurar el vector de características que caracteriza un documento de texto dado. En la actualidad, estoy tratando de usar el modelo de lenguaje bi-gram o …

1
Modelado de idiomas: ¿por qué es tan importante sumar 1?
En muchas aplicaciones de procesamiento de lenguaje natural, como corrección ortográfica, traducción automática y reconocimiento de voz, utilizamos modelos de lenguaje. Los modelos de lenguaje se crean generalmente contando con qué frecuencia ocurren secuencias de palabras (n-gramos) en un corpus grande y normalizando los recuentos para crear una probabilidad. Para …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.