Preguntas etiquetadas con feature-selection

Métodos y principios para seleccionar un subconjunto de atributos para usar en modelos adicionales

11
¿Qué es la reducción de dimensionalidad? ¿Cuál es la diferencia entre la selección y extracción de características?
De wikipedia, La reducción de dimensionalidad o reducción de dimensión es el proceso de reducir el número de variables aleatorias bajo consideración, y puede dividirse en selección de características y extracción de características. ¿Cuál es la diferencia entre la selección de características y la extracción de características? ¿Cuál es un …



1


4
¿XGBoost maneja la multicolinealidad por sí mismo?
Actualmente estoy usando XGBoost en un conjunto de datos con 21 características (seleccionadas de la lista de unas 150 características), luego las codifiqué para obtener ~ 98 características. Algunas de estas 98 características son algo redundantes, por ejemplo: una variable (característica) también aparece como BUNAAA yCsiUNABA\frac{B}{A} .doUNACA\frac{C}{A} Mis preguntas son: …

3
¿Cómo realizar ingeniería de características en características desconocidas?
Estoy participando en una competencia de kaggle. El conjunto de datos tiene alrededor de 100 características y todas son desconocidas (en términos de lo que realmente representan). Básicamente son solo números. La gente está realizando una gran cantidad de ingeniería de características en estas características. Me pregunto cómo exactamente uno …

2
Categorización de texto: combina diferentes tipos de características
El problema que estoy abordando es categorizar textos cortos en varias clases. Mi enfoque actual es utilizar frecuencias de término ponderadas tf-idf y aprender un clasificador lineal simple (regresión logística). Esto funciona razonablemente bien (alrededor del 90% de macro F-1 en el conjunto de prueba, casi el 100% en el …

4
¿Alguna "regla de oro" sobre el número de características versus el número de instancias? (pequeños conjuntos de datos)
Me pregunto si hay alguna heurística en el número de características versus el número de observaciones. Obviamente, si un número de características es igual al número de observaciones, el modelo se sobreajustará. Mediante el uso de métodos dispersos (LASSO, red elástica) podemos eliminar varias características para reducir el modelo. Mi …


5
agrandar el mapa de calor marino
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Selección de características vs extracción de características. ¿Cuál usar cuando?
La extracción de características y la selección de características esencialmente reducen la dimensionalidad de los datos, pero la extracción de características también hace que los datos sean más separables, si tengo razón. ¿Qué técnica se preferiría sobre la otra y cuándo? Estaba pensando, dado que la selección de características no …

3
Cómo combinar características de entrada categóricas y continuas para el entrenamiento de redes neuronales
Supongamos que tenemos dos tipos de características de entrada, categóricas y continuas. Los datos categóricos pueden representarse como un código de acceso directo A, mientras que los datos continuos son solo un vector B en el espacio de dimensión N. Parece que simplemente usar concat (A, B) no es una …

4
¿Cómo especificar atributos importantes?
Suponga un conjunto de datos poco estructurados (por ejemplo, tablas web / datos abiertos vinculados), compuestos de muchas fuentes de datos. No existe un esquema común seguido de los datos y cada fuente puede usar atributos de sinónimos para describir los valores (por ejemplo, "nacionalidad" frente a "bornIn"). Mi objetivo …

4
¿Cuáles son las implicaciones para entrenar un conjunto de árboles con conjuntos de datos altamente sesgados?
Tengo un conjunto de datos binarios altamente sesgado: tengo 1000 veces más ejemplos de la clase negativa que la clase positiva. Me gustaría entrenar un conjunto de árboles (como árboles extra aleatorios o un bosque aleatorio) sobre estos datos, pero es difícil crear conjuntos de datos de entrenamiento que contengan …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.