Ciencia de los datos

Preguntas y respuestas para profesionales de la ciencia de datos, especialistas en aprendizaje automático y aquellos interesados ​​en aprender más sobre el campo

4
¿Cómo saber que el modelo ha comenzado a sobreajustar?
Espero que los siguientes extractos proporcionen una idea de cuál será mi pregunta. Estos son de http://neuralnetworksanddeeplearning.com/chap3.html El aprendizaje luego se ralentiza gradualmente. Finalmente, alrededor de la época 280, la precisión de la clasificación prácticamente deja de mejorar. Las épocas posteriores simplemente ven pequeñas fluctuaciones estocásticas cercanas al valor de …




3
Función de costo de ajuste de Tensorflow para datos desequilibrados
Tengo un problema de clasificación con datos altamente desequilibrados. He leído que sobremuestrear y submuestrear, así como cambiar el costo de resultados categóricos subrepresentados, conducirá a una mejor adaptación. Antes de que esto se hiciera, tensorflow clasificaría cada entrada como el grupo mayoritario (y obtendría más del 90% de precisión, …

3
Necesita ayuda para comprender la propuesta aproximada de puntos divididos de xgboost
antecedentes: En xgboost, la iteración intenta ajustar un árbol sobre todos los ejemplos, lo que minimiza el siguiente objetivo:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] donde son primer orden y de segundo orden sobre nuestra mejor estimación anterior (de la iteración ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) y es nuestra función de pérdida.lll …
12 xgboost  gbm 



1
Selección de características mediante la importación de características en bosques aleatorios con scikit-learn
He trazado las características importantes en bosques aleatorios con scikit-learn . Para mejorar la predicción utilizando bosques aleatorios, ¿cómo puedo usar la información de la parcela para eliminar características? Es decir, ¿cómo detectar si una característica es inútil o incluso peor, la disminución del rendimiento de los bosques al azar, …

3
Ayuda sobre NER en NLTK
He estado trabajando en NLTK por un tiempo usando Python. El problema al que me enfrento es que no hay ayuda disponible para entrenar NER en NLTK con mis datos personalizados. Han usado MaxEnt y lo han entrenado en ACE corpus. He buscado mucho en la web pero no pude …


2
Modelado de series de tiempo desigualmente espaciadas
Tengo una variable continua, muestreada durante un período de un año a intervalos irregulares. Algunos días tienen más de una observación por hora, mientras que otros períodos no tienen nada durante días. Esto hace que sea particularmente difícil detectar patrones en las series de tiempo, porque algunos meses (por ejemplo, …




Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.