Estadísticas y Big Data neural-networks

1

Cómo manejar el cambio de la longitud del vector de entrada con redes neuronales

Quiero entrenar una red neuronal con una secuencia de caracteres como un vector de entrada. Los ejemplos de aprendizaje tienen una longitud diferente y por esta razón no sé cómo representarlos. Digamos que tengo dos ejemplos de secuencias, aquí los nombres: john doe maurice delanoe El primer ejemplo es de …

9 machine-learning neural-networks feature-selection natural-language

1

Red neuronal sobreadaptada

Aprendí que se puede detectar el sobreajuste trazando el error de entrenamiento y el error de prueba en comparación con las épocas. Como en: He estado leyendo esta publicación de blog donde dicen que la red neuronal, net5 es demasiado adecuada y proporcionan esta cifra: Lo cual es extraño para …

9 neural-networks overfitting

2

Divergencia contrastante persistente para RBM

Cuando usamos el algoritmo de aprendizaje de CD persistente para máquinas Bolzmann restringidas, comenzamos nuestra cadena de muestreo de Gibbs en la primera iteración en un punto de datos, pero a diferencia del CD normal, en las siguientes iteraciones no comenzamos sobre nuestra cadena. En cambio, comenzamos donde terminó la …

9 machine-learning neural-networks rbm

3

¿La clasificación basada en redes neuronales necesita una reducción de dimensiones?

Estoy usando un clasificador basado en redes neuronales para ejecutar una clasificación para mis datos en n-dimensional. Entonces pensé que podría ser una buena idea ejecutar la reducción de dimensiones como PCA para mis datos al principio, y luego poner los resultados de PCA en el clasificador (conservo 3 PC). …

9 pca neural-networks

1

Diferencia entre Naive Bayes vs Recurrent Neural Network (LSTM)

Quiero realizar análisis de sentimientos en el texto, he revisado varios artículos, algunos de ellos usan "Naive Bayes" y otros son "Recurrent Neural Network (LSTM)" , por otro lado, he visto una biblioteca de Python para el análisis de sentimientos que es nltk Utiliza "Naive Bayes". ¿Alguien puede explicar cuál …

8 machine-learning neural-networks python natural-language

1

Definición de la función softmax

Esta pregunta sigue en stats.stackexchange.com/q/233658 El modelo de regresión logística para las clases {0, 1} es P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp⁡(wTx)1+exp⁡(wTx)P(y=0|x)=11+exp⁡(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)} Claramente, esas probabilidades suman 1. Al establecer también podríamos …

8 logistic neural-networks multinomial-logit softmax identifiability

2

¿El sesgo bajo en una muestra es sinónimo de varianza alta?

¿Es cierto lo siguiente? sesgo bajo = varianza alta sesgo alto = varianza baja Entiendo el sesgo alto y bajo, pero ¿cómo es diferente la varianza? ¿O son los sinónimos anteriores?

8 machine-learning neural-networks variance sampling bias

3

¿El teorema de aproximación universal para redes neuronales es válido para alguna función de activación?

¿El teorema de aproximación universal para redes neuronales es válido para cualquier función de activación (sigmoide, ReLU, Softmax, etc.) o se limita a las funciones sigmoideas? Actualización: como señala shimao en los comentarios, no cumple absolutamente ninguna función. Entonces, ¿para qué clase de funciones de activación tiene?

8 neural-networks approximation

2

Identificabilidad de modelos de redes neuronales

Es bastante intuitivo que la mayoría de las topologías / arquitecturas de redes neuronales no son identificables. Pero, ¿cuáles son algunos resultados bien conocidos en el campo? ¿Existen condiciones simples que permiten / evitan la identificabilidad? Por ejemplo, todas las redes con funciones de activación no lineales y más de …

8 neural-networks conv-neural-network rnn identifiability

2

¿Qué tan importante es la expansión de bases para redes profundas?

Si se considera que las redes neuronales profundas son aproximadores de función universal, ¿es realmente necesaria la expansión de la base? ¿O esto sería específico para cada caso? Por ejemplo, si uno tiene tres variables X cuantitativas, ¿habría alguna ventaja en expandir el número de variables mediante la introducción de …

8 neural-networks deep-learning feature-construction

1

¿Por qué se utiliza sqrt (6) para calcular epsilon para la inicialización aleatoria de redes neuronales?

En las notas de la semana 5 para la clase de aprendizaje automático Coursera de Andrew Ng , se proporciona la siguiente fórmula para calcular el valor deϵϵ\epsilon solía inicializar ΘΘ\Theta con valores aleatorios: En el ejercicio , se dan más aclaraciones: Una estrategia efectiva para elegir ϵi n i …

8 machine-learning neural-networks random-generation

1

Alternativas a la generalización L1, L2 y Dropout

Tengo la siguiente configuración para un proyecto de investigación de Finanzas / Aprendizaje automático en mi universidad: estoy aplicando una Red neuronal (profunda) (MLP) con la siguiente estructura en Keras / Theano para distinguir las existencias con mejor rendimiento (etiqueta 1) de las existencias con bajo rendimiento ( etiqueta 0). …

8 machine-learning neural-networks deep-learning regularization dropout

2

Redes neuronales: ¿una época en SGD es lo mismo que una época en mini-lote?

En SGD, una época sería la presentación completa de los datos de entrenamiento, y luego habría N actualizaciones de peso por época (si hay N ejemplos de datos en el conjunto de entrenamiento). Si ahora hacemos mini lotes, digamos en lotes de 20. ¿Una época ahora consiste en actualizaciones de …

8 machine-learning neural-networks

1

Caída repentina de precisión al entrenar LSTM o GRU en Keras

Mi red neuronal recurrente (LSTM, resp. GRU) se comporta de una manera que no puedo explicar. El entrenamiento comienza y se entrena bien (los resultados se ven bastante bien) cuando de repente cae la precisión (y la pérdida aumenta rápidamente) , tanto las métricas de entrenamiento como de prueba. A …

8 neural-networks lstm gru

2

¿Hay alguna forma de lidiar con el gradiente de desaparición para saturar las no linealidades que no involucran unidades de Normalización por lotes o ReLu?

Quería entrenar una red con no linealidades que sufren el desvanecimiento (o el problema de gradiente explosivo, aunque principalmente se desvanecen). Sé que la forma estándar (actual) es usar la normalización por lotes 1 [BN] 1 o simplemente abandonar la no linealidad y usar las unidades ReLu Rectifier / ReLu …

8 machine-learning neural-networks conv-neural-network batch-normalization

Preguntas etiquetadas con neural-networks