Ciencia de los datos

Preguntas y respuestas para profesionales de la ciencia de datos, especialistas en aprendizaje automático y aquellos interesados ​​en aprender más sobre el campo

2
¿Hay alguna posibilidad de cambiar la métrica utilizada por la devolución de llamada de detención temprana en Keras?
Cuando se utiliza la devolución de llamada de detención temprana en el entrenamiento de Keras, se detiene cuando alguna métrica (generalmente pérdida de validación) no aumenta. ¿Hay alguna manera de usar otra métrica (como precisión, recuperación, medida f) en lugar de pérdida de validación? Todos los ejemplos que he visto …

2
¿Aprendizaje profundo para tareas sin imagen y sin PNL?
Hasta ahora hay muchas aplicaciones interesantes para el aprendizaje profundo en visión por computadora o procesamiento de lenguaje natural. ¿Cómo es en otros campos más tradicionales? Por ejemplo, tengo variables sociodemográficas tradicionales además de muchas mediciones de laboratorio y quiero predecir una determinada enfermedad. ¿Sería esta una aplicación de aprendizaje …

1
¿Cuántas celdas LSTM debo usar?
¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time steps n - length of input …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


2
¿Cómo calcular la dimensión VC?
Estoy estudiando aprendizaje automático, y me gustaría saber cómo calcular la dimensión VC. Por ejemplo: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , con parámetros .(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 ¿Cuál es la dimensión VC de la misma?

4
Importe el contenido del archivo csv en marcos de datos pyspark
¿Cómo puedo importar un archivo .csv en marcos de datos pyspark? Incluso intenté leer el archivo csv en Pandas y luego convertirlo en un marco de datos de chispa usando createDataFrame, pero todavía muestra algún error. ¿Alguien puede guiarme a través de esto? Además, por favor dígame ¿cómo puedo importar …
12 pyspark 

2
¿Cómo combino dos marcos de datos en Python Pandas?
Tengo dos marcos de datos df1 y df2 y me gustaría fusionarlos en un solo marco de datos. Es como si df1 y df2 se hubieran dividido verticalmente en un solo cuadro de datos en el centro, como rasgar un trozo de papel que contiene una lista por la mitad, …
12 pandas 


2
Reducción eficiente de dimensionalidad para grandes conjuntos de datos
Tengo un conjunto de datos con ~ 1M filas y ~ 500K características dispersas. Quiero reducir la dimensionalidad a algún lugar del orden de las características densas 1K-5K. sklearn.decomposition.PCAno funciona en datos dispersos, y he intentado usarlos, sklearn.decomposition.TruncatedSVDpero obtengo un error de memoria bastante rápido. ¿Cuáles son mis opciones para …

3
Consulta de lenguaje natural a SQL
He estado trabajando en el desarrollo de un sistema "Conversión de lenguaje natural a consulta SQL". He leído las respuestas de preguntas similares, pero no pude obtener la información que estaba buscando. A continuación se muestra el diagrama de flujo para dicho sistema que obtuve de Un algoritmo para transformar …



2
¿Scikit-learn usa la regularización por defecto?
Acabo de ajustar una curva logística a algunos datos falsos. Hice los datos esencialmente una función de paso. data = -------------++++++++++++++ Pero cuando miro la curva ajustada, la pendiente es muy pequeña. La función que minimiza mejor la función de costo, suponiendo la entropía cruzada, es la función de paso. …


3
¿Hay algún buen modelo de lenguaje listo para usar para Python?
Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.