Ciencia de los datos

2

¿Hay alguna posibilidad de cambiar la métrica utilizada por la devolución de llamada de detención temprana en Keras?

Cuando se utiliza la devolución de llamada de detención temprana en el entrenamiento de Keras, se detiene cuando alguna métrica (generalmente pérdida de validación) no aumenta. ¿Hay alguna manera de usar otra métrica (como precisión, recuperación, medida f) en lugar de pérdida de validación? Todos los ejemplos que he visto …

12 machine-learning neural-network deep-learning keras

2

¿Aprendizaje profundo para tareas sin imagen y sin PNL?

Hasta ahora hay muchas aplicaciones interesantes para el aprendizaje profundo en visión por computadora o procesamiento de lenguaje natural. ¿Cómo es en otros campos más tradicionales? Por ejemplo, tengo variables sociodemográficas tradicionales además de muchas mediciones de laboratorio y quiero predecir una determinada enfermedad. ¿Sería esta una aplicación de aprendizaje …

12 deep-learning

1

¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time steps n - length of input …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

5

¿Buenos paquetes de "minería de secuencia frecuente" en Python?

¿Alguien ha usado (y le ha gustado) algún buen paquete de "minería de secuencia frecuente" en Python que no sea el FPM en MLLib? Estoy buscando un paquete estable, preferiblemente calmado mantenido por personas. ¡Gracias!

12 python sequential-pattern-mining

2

¿Cómo calcular la dimensión VC?

Estoy estudiando aprendizaje automático, y me gustaría saber cómo calcular la dimensión VC. Por ejemplo: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , con parámetros .(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 ¿Cuál es la dimensión VC de la misma?

12 machine-learning classification vc-theory

4

Importe el contenido del archivo csv en marcos de datos pyspark

¿Cómo puedo importar un archivo .csv en marcos de datos pyspark? Incluso intenté leer el archivo csv en Pandas y luego convertirlo en un marco de datos de chispa usando createDataFrame, pero todavía muestra algún error. ¿Alguien puede guiarme a través de esto? Además, por favor dígame ¿cómo puedo importar …

12 pyspark

2

¿Cómo combino dos marcos de datos en Python Pandas?

Tengo dos marcos de datos df1 y df2 y me gustaría fusionarlos en un solo marco de datos. Es como si df1 y df2 se hubieran dividido verticalmente en un solo cuadro de datos en el centro, como rasgar un trozo de papel que contiene una lista por la mitad, …

12 pandas

2

¿FPGrowth todavía se considera "estado del arte" en la minería de patrones frecuente?

Hasta donde sé, el desarrollo de algoritmos para resolver el problema de Minería de patrones frecuentes (FPM), el camino de las mejoras tiene algunos puntos de control principales. En primer lugar, el algoritmo Apriori fue propuesto en 1993 por Agrawal et al. , junto con la formalización del problema. El …

12 bigdata data-mining efficiency state-of-the-art

2

Reducción eficiente de dimensionalidad para grandes conjuntos de datos

Tengo un conjunto de datos con ~ 1M filas y ~ 500K características dispersas. Quiero reducir la dimensionalidad a algún lugar del orden de las características densas 1K-5K. sklearn.decomposition.PCAno funciona en datos dispersos, y he intentado usarlos, sklearn.decomposition.TruncatedSVDpero obtengo un error de memoria bastante rápido. ¿Cuáles son mis opciones para …

12 python scikit-learn dimensionality-reduction

3

Consulta de lenguaje natural a SQL

He estado trabajando en el desarrollo de un sistema "Conversión de lenguaje natural a consulta SQL". He leído las respuestas de preguntas similares, pero no pude obtener la información que estaba buscando. A continuación se muestra el diagrama de flujo para dicho sistema que obtuve de Un algoritmo para transformar …

12 machine-learning nlp sql natural-language-process

3

Reemplace todos los valores numéricos en un marco de datos pyspark por un valor constante

Considere un marco de datos pyspark que consta de elementos 'nulos' y elementos numéricos. En general, los elementos numéricos tienen valores diferentes. ¿Cómo es posible reemplazar todos los valores numéricos del marco de datos por un valor numérico constante (por ejemplo, por el valor 1)? ¡Gracias por adelantado! Ejemplo para …

12 python apache-spark

2

¿Cuándo usar Standard Scaler y cuándo Normalizer?

Entiendo lo que hace Standard Scalar y lo que hace Normalizer, según la documentación de scikit: Normalizer , Standard Scaler . Sé cuándo se aplica el Escalador estándar. ¿Pero en qué escenario se aplica Normalizer? ¿Hay escenarios en los que se prefiere uno sobre el otro?

12 python scikit-learn data-cleaning normalization

2

¿Scikit-learn usa la regularización por defecto?

Acabo de ajustar una curva logística a algunos datos falsos. Hice los datos esencialmente una función de paso. data = -------------++++++++++++++ Pero cuando miro la curva ajustada, la pendiente es muy pequeña. La función que minimiza mejor la función de costo, suponiendo la entropía cruzada, es la función de paso. …

12 logistic-regression scikit-learn

4

¿Cómo funcionará el principio Razor de Occam en el aprendizaje automático?

La siguiente pregunta que se muestra en la imagen se hizo durante uno de los exámenes recientemente. No estoy seguro de haber entendido correctamente el principio de Navaja de Occam o no. De acuerdo con las distribuciones y los límites de decisión dados en la pregunta y siguiendo la Navaja …

11 machine-learning classification

3

¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision