¿Qué modelo de aprendizaje profundo puede clasificar categorías que no son mutuamente excluyentes?

Ejemplos: Tengo una oración en la descripción del trabajo: "Ingeniero senior de Java en el Reino Unido".

Quiero usar un modelo de aprendizaje profundo para predecirlo en 2 categorías: English y IT jobs. Si uso el modelo de clasificación tradicional, solo puede predecir 1 etiqueta con softmaxfunción en la última capa. Por lo tanto, puedo usar 2 redes neuronales modelo para predecir "Sí" / "No" con ambas categorías, pero si tenemos más categorías, es demasiado costoso. Entonces, ¿tenemos algún modelo de aprendizaje profundo o aprendizaje automático para predecir 2 o más categorías al mismo tiempo?

"Editar": con 3 etiquetas por enfoque tradicional, se codificará por [1,0,0] pero en mi caso, se codificará por [1,1,0] o [1,1,1]

Ejemplo: si tenemos 3 etiquetas, y una oración puede encajar con todas estas etiquetas. Entonces, si la salida de la función softmax es [0.45, 0.35, 0.2], ¿deberíamos clasificarla en 3 etiquetas o 2 etiquetas, o puede ser una? El principal problema cuando lo hacemos es: ¿cuál es un buen umbral para clasificar en 1, 2 o 3 etiquetas?

machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

— voxter
fuente

Tenemos que usar la función sigmoidea en lugar de la función softmax. Puede asignar múltiples clases a los puntos de datos.

— NITISH MAHAJAN

Puede lograr esta clasificación de etiquetas múltiples reemplazando el softmax con una activación sigmoidea y utilizando la crossentropía binaria en lugar de la crossentropía categórica como la función de pérdida. Entonces solo necesita una red con tantas unidades de salida / neuronas como etiquetas.

$i$ $j$

$L_i = - \sum_j{t_{i,j} \log(p_{i,j})}$

$t_{i,j}=0$ $L_i=-\sum_j{t_{i,j} \log(p_{i,j})} -\sum_j{(1 - t_{i,j}) \log(1 - p_{i,j})}$

— robintibor
fuente

¿Por qué necesitamos usar la crossentropía binaria en lugar de la crossentropía categórica como la función de pérdida? Puedes explicarme mas ? Ahora estoy usando la activación sigmoidea @robintibor

— voxter

He agregado una explicación a la respuesta @voxter

— robintibor

Brillante! Gracias. Además, ¿puede dar algunos documentos o tutoriales que expliquen más matemáticas sobre las funciones de profundización, como me explicó?

— voxter

Excelente. Estos tutoriales pueden ayudar: neuralnetworksanddeeplearning.com deeplearning.net/tutorial deeplearning.stanford.edu/tutorial

— robintibor