Ciencia de los datos

4

¿Cómo saber que el modelo ha comenzado a sobreajustar?

Espero que los siguientes extractos proporcionen una idea de cuál será mi pregunta. Estos son de http://neuralnetworksanddeeplearning.com/chap3.html El aprendizaje luego se ralentiza gradualmente. Finalmente, alrededor de la época 280, la precisión de la clasificación prácticamente deja de mejorar. Las épocas posteriores simplemente ven pequeñas fluctuaciones estocásticas cercanas al valor de …

12 neural-network overfitting

2

La pérdida de validación y la precisión permanecen constantes

Estoy tratando de implementar este documento en un conjunto de imágenes médicas. Lo estoy haciendo en Keras. La red consiste esencialmente en 4 capas conv y max-pool seguidas de una capa completamente conectada y un clasificador soft soft. Hasta donde sé, he seguido la arquitectura mencionada en el documento. Sin …

12 machine-learning python deep-learning keras

3

Columnas categóricas de conversión masiva en pandas (no codificación de una sola vez)

Tengo un marco de datos de pandas con toneladas de columnas categóricas, que planeo usar en el árbol de decisiones con scikit-learn. Necesito convertirlos a valores numéricos (no uno vectores calientes). Puedo hacerlo con LabelEncoder de scikit-learn. El problema es que hay demasiados y no quiero convertirlos manualmente. Cuál sería …

12 scikit-learn pandas categorical-data labels

2

¿Cuántas imágenes por clase son suficientes para entrenar a una CNN?

Estoy comenzando un proyecto donde la tarea es identificar los tipos de zapatillas a partir de imágenes. Actualmente estoy leyendo las implementaciones de TensorFlow y Torch . Mi pregunta es: ¿cuántas imágenes por clase se requieren para alcanzar un rendimiento de clasificación razonable?

12 machine-learning neural-network image-classification convnet image-recognition

3

Función de costo de ajuste de Tensorflow para datos desequilibrados

Tengo un problema de clasificación con datos altamente desequilibrados. He leído que sobremuestrear y submuestrear, así como cambiar el costo de resultados categóricos subrepresentados, conducirá a una mejor adaptación. Antes de que esto se hiciera, tensorflow clasificaría cada entrada como el grupo mayoritario (y obtendría más del 90% de precisión, …

12 tensorflow loss-function

3

Necesita ayuda para comprender la propuesta aproximada de puntos divididos de xgboost

antecedentes: En xgboost, la iteración intenta ajustar un árbol sobre todos los ejemplos, lo que minimiza el siguiente objetivo:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] donde son primer orden y de segundo orden sobre nuestra mejor estimación anterior (de la iteración ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) y es nuestra función de pérdida.lll …

12 xgboost gbm

2

Aprendizaje profundo con espectrogramas para reconocimiento de sonido

Estaba estudiando la posibilidad de clasificar el sonido (por ejemplo, sonidos de animales) usando espectrogramas. La idea es utilizar redes neuronales convolucionales profundas para reconocer segmentos en el espectrograma y generar una (o muchas) etiquetas de clase. Esta no es una idea nueva (ver, por ejemplo , clasificación de sonido …

12 deep-learning multilabel-classification audio-recognition

3

¿Cómo puedo distinguir dinámicamente entre datos categóricos y datos numéricos?

Conozco a alguien que está trabajando en un proyecto que implica ingerir archivos de datos sin tener en cuenta las columnas o los tipos de datos. La tarea es tomar un archivo con cualquier número de columnas y varios tipos de datos y generar estadísticas de resumen de los datos …

12 categorical-data numerical

1

Selección de características mediante la importación de características en bosques aleatorios con scikit-learn

He trazado las características importantes en bosques aleatorios con scikit-learn . Para mejorar la predicción utilizando bosques aleatorios, ¿cómo puedo usar la información de la parcela para eliminar características? Es decir, ¿cómo detectar si una característica es inútil o incluso peor, la disminución del rendimiento de los bosques al azar, …

12 feature-selection random-forest scikit-learn

3

Ayuda sobre NER en NLTK

He estado trabajando en NLTK por un tiempo usando Python. El problema al que me enfrento es que no hay ayuda disponible para entrenar NER en NLTK con mis datos personalizados. Han usado MaxEnt y lo han entrenado en ACE corpus. He buscado mucho en la web pero no pude …

12 machine-learning python nlp

4

Descargar un gran conjunto de datos en la web directamente en AWS S3

¿Alguien sabe si es posible importar un gran conjunto de datos a Amazon S3 desde una URL? Básicamente, quiero evitar descargar un archivo enorme y luego volver a cargarlo en S3 a través del portal web. Solo quiero proporcionar la URL de descarga a S3 y esperar a que la …

12 dataset aws

2

Modelado de series de tiempo desigualmente espaciadas

Tengo una variable continua, muestreada durante un período de un año a intervalos irregulares. Algunos días tienen más de una observación por hora, mientras que otros períodos no tienen nada durante días. Esto hace que sea particularmente difícil detectar patrones en las series de tiempo, porque algunos meses (por ejemplo, …

12 neural-network time-series regression

2

Herramientas de código abierto para obtener ayuda en el flujo de minería de puntajes de la tabla de líderes

Considere una secuencia que contiene tuplas que (user, new_score) representan las puntuaciones de los usuarios en un juego en línea. La transmisión podría tener 100-1,000 elementos nuevos por segundo. El juego tiene 200K a 300K jugadores únicos. Me gustaría tener algunas consultas permanentes como: Qué jugadores publicaron más de x …

12 tools data-stream-mining

3

¿Cómo animar el crecimiento de una red social?

Estoy buscando una biblioteca / herramienta para visualizar cómo cambia la red social cuando se le agregan nuevos nodos / bordes. Una de las soluciones existentes es SoNIA: Social Network Image Animator . Te permite hacer películas como esta . La documentación de SoNIA dice que está rota en este …

12 social-network-analysis time-series javascript visualization

3

¿Cómo regresa una consulta a una gran base de datos con una latencia insignificante?

Por ejemplo, al buscar algo en Google, los resultados regresan casi al instante. Entiendo que Google clasifica e indexa páginas con algoritmos, etc., pero imagino que no es factible indexar los resultados de cada consulta posible (y los resultados son personalizados, lo que hace que esto sea aún más inviable). …

12 bigdata google search