Estadísticas y Big Data natural-language

3

Redes neuronales recurrentes vs recursivas: ¿cuál es mejor para la PNL?

Hay redes neuronales recurrentes y redes neuronales recursivas. Ambos generalmente se denotan con el mismo acrónimo: RNN. Según Wikipedia , los NN recurrentes son de hecho NN recursivos, pero realmente no entiendo la explicación. Además, no parece encontrar cuál es mejor (con ejemplos más o menos) para el procesamiento del …

48 machine-learning neural-networks deep-learning natural-language

7

Referencias de redes neuronales (libros de texto, cursos en línea) para principiantes

Quiero aprender redes neuronales. Soy un lingüista computacional. Conozco enfoques estadísticos de aprendizaje automático y puedo codificar en Python. Estoy buscando comenzar con sus conceptos y conocer uno o dos modelos populares que pueden ser útiles desde una perspectiva de Lingüística Computacional. Navegué por la web como referencia y encontré …

43 neural-networks deep-learning references natural-language computer-vision

5

LDA vs word2vec

Estoy tratando de entender cuál es la similitud entre la asignación de Dirichlet latente y word2vec para calcular la similitud de palabras. Según tengo entendido, LDA asigna palabras a un vector de probabilidades de temas latentes , mientras que word2vec las asigna a un vector de números reales (relacionado con …

39 machine-learning self-study natural-language latent-variable word2vec

3

Aplique incrustaciones de palabras en todo el documento para obtener un vector de características

¿Cómo uso una incrustación de palabras para asignar un documento a un vector de características, adecuado para su uso con aprendizaje supervisado? Una incrustación de palabras asigna cada palabra www a un vector , donde es un número no demasiado grande (por ejemplo, 500). Las incrustaciones de palabras populares incluyen …

38 classification natural-language supervised-learning word2vec word-embeddings

1

¿Debo normalizar los vectores de palabras de word2vec antes de usarlos?

Después de entrenar vectores de palabras con word2vec, ¿es mejor normalizarlos antes de usarlos para algunas aplicaciones posteriores? Es decir, ¿cuáles son los pros / contras de normalizarlos?

38 natural-language word2vec word-embeddings

3

Diferencia intuitiva entre modelos ocultos de Markov y campos aleatorios condicionales

Entiendo que los HMM (modelos ocultos de Markov) son modelos generativos, y CRF son modelos discriminativos. También entiendo cómo se diseñan y utilizan los CRF (campos aleatorios condicionales). Lo que no entiendo es en qué se diferencian de los HMM. Leí que en el caso de HMM, solo podemos modelar …

33 machine-learning hidden-markov-model natural-language conditional-random-field

3

R: Bosque aleatorio que arroja NaN / Inf en el error de "llamada de función externa" a pesar de que no hay NaN en el conjunto de datos [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 2 años . Estoy usando caret para ejecutar un bosque aleatorio validado cruzado sobre un conjunto de datos. La …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

2

¿La similitud del coseno es idéntica a la distancia euclidiana normalizada l2?

Idéntico significado, que producirá resultados idénticos para una clasificación entre un vector de similitud u y un conjunto de vectores V . Tengo un modelo de espacio vectorial que tiene la medida de distancia (distancia euclidiana, similitud de coseno) y la técnica de normalización (ninguno, l1, l2) como parámetros. Según …

27 normalization natural-language euclidean cosine-distance cosine-similarity

3

Modelos de temas y métodos de coincidencia de palabras

Los modelos de temas populares como LDA generalmente agrupan palabras que tienden a coexistir juntas en el mismo tema (grupo). ¿Cuál es la principal diferencia entre tales modelos de temas y otros enfoques de agrupación basados en la coincidencia simple como PMI? (PMI significa información mutua puntual, y se utiliza …

26 machine-learning text-mining natural-language topic-models

1

¿Se ha replicado el rendimiento del estado de la técnica de usar vectores de párrafo para el análisis de sentimientos?

Me impresionaron los resultados en el documento ICML 2014 " Representaciones distribuidas de oraciones y documentos " de Le y Mikolov. La técnica que describen, llamada "vectores de párrafo", aprende representaciones sin supervisión de párrafos / documentos arbitrariamente largos, basados en una extensión del modelo word2vec. El documento informa sobre …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

¿Por qué es skip-gram mejor para palabras poco frecuentes que CBOW?

Me pregunto por qué skip-gram es mejor para palabras poco frecuentes que CBOW en word2vec. He leído el reclamo en https://code.google.com/p/word2vec/ .

19 natural-language word2vec word-embeddings

2

¿Por qué el procesamiento del lenguaje natural no cae dentro del dominio de aprendizaje automático? [cerrado]

Tal como está actualmente, esta pregunta no es adecuada para nuestro formato de preguntas y respuestas. Esperamos que las respuestas sean respaldadas por hechos, referencias o experiencia, pero esta pregunta probablemente solicitará debate, argumentos, encuestas o discusión extendida. Si cree que esta pregunta se puede mejorar y posiblemente volver a …

18 machine-learning text-mining natural-language

3

En el suavizado de Kneser-Ney, ¿cómo se manejan las palabras invisibles?

Por lo que he visto, la fórmula de suavizado de Kneser-Ney (segundo orden) se da de una forma u otra como P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} con el factor de normalización dado comoλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= …

15 machine-learning natural-language naive-bayes smoothing language-models

3

Modelos de tema para documentos cortos

Inspirado por esta pregunta , me pregunto si se ha realizado algún trabajo sobre modelos de temas para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de una experimentación limitada, parece que los modelos de …

14 references text-mining topic-models natural-language

2

¿A qué n los n-gramos se vuelven contraproducentes?

Al hacer el procesamiento del lenguaje natural, uno puede tomar un corpus y evaluar la probabilidad de que la siguiente palabra ocurra en una secuencia de n. n generalmente se elige como 2 o 3 (bigrams y trigrams). ¿Existe un punto conocido en el que el seguimiento de los datos …

13 text-mining natural-language

Preguntas etiquetadas con natural-language