Ciencia de los datos

Preguntas y respuestas para profesionales de la ciencia de datos, especialistas en aprendizaje automático y aquellos interesados en aprender más sobre el campo

¿Qué hace que las bases de datos en columnas sean adecuadas para la ciencia de datos?

¿Cuáles son algunas de las ventajas de los almacenes de datos en columnas que los hacen más adecuados para la ciencia y el análisis de datos?

23 databases tools

¿Es necesario estandarizar sus datos antes de la agrupación?

¿Es necesario estandarizar sus datos antes del clúster? En el ejemplo de scikit learnaproximadamente DBSCAN, aquí hacen esto en la línea: X = StandardScaler().fit_transform(X) Pero no entiendo por qué es necesario. Después de todo, la agrupación no supone una distribución particular de datos: es un método de aprendizaje no supervisado, …

23 python clustering clusters anomaly-detection

K-significa comportamiento incoherente eligiendo K con método Elbow, BIC, varianza explicada y silueta

Estoy tratando de agrupar algunos vectores con 90 características con K-means. Como este algoritmo me pregunta la cantidad de clústeres, quiero validar mi elección con algunas buenas matemáticas. Espero tener de 8 a 10 grupos. Las características son escala Z-score. Método del codo y varianza explicada from scipy.spatial.distance import cdist, …

23 clustering k-means

Propósito de visualizar datos de alta dimensión?

Existen muchas técnicas para visualizar conjuntos de datos de alta dimensión, como T-SNE, isomap, PCA, PCA supervisada, etc. Y hacemos los movimientos de proyectar los datos en un espacio 2D o 3D, por lo que tenemos "imágenes bonitas ". Aquí se describen algunos de estos métodos de inclusión (aprendizaje múltiple) …

23 machine-learning dimensionality-reduction visualization

¿Funciones de codificación como mes y hora como categoriales o numéricas?

¿Es mejor codificar características como mes y hora como factor o numérico en un modelo de aprendizaje automático? Por un lado, creo que la codificación numérica podría ser razonable, porque el tiempo es un proceso progresivo (el quinto mes es seguido por el sexto mes), pero por otro lado, creo …

23 machine-learning feature-extraction feature-engineering encoding numerical

¿Cómo comparo columnas en diferentes marcos de datos?

Me gustaría comparar una columna de un df con otras df. Las columnas son nombres y apellidos. Me gustaría comprobar si una persona en un marco de datos está en otro.

23 pandas dataframe

¿XGBoost maneja la multicolinealidad por sí mismo?

Actualmente estoy usando XGBoost en un conjunto de datos con 21 características (seleccionadas de la lista de unas 150 características), luego las codifiqué para obtener ~ 98 características. Algunas de estas 98 características son algo redundantes, por ejemplo: una variable (característica) también aparece como BUNAAA yCsiUNABA\frac{B}{A} .doUNACA\frac{C}{A} Mis preguntas son: …

23 feature-selection correlation xgboost gbm

¿Cómo usar la salida de GridSearch?

Actualmente estoy trabajando con Python y Scikit para fines de clasificación, y leyendo un poco sobre GridSearch, pensé que esta era una excelente manera de optimizar los parámetros de mi estimador para obtener los mejores resultados. Mi metodología es esta: Dividir mis datos en entrenamiento / prueba. Use GridSearch con …

23 machine-learning cross-validation

¿Qué es exactamente bootstrapping en el aprendizaje por refuerzo?

Aparentemente, en el aprendizaje por refuerzo, el método de diferencia temporal (TD) es un método de arranque. Por otro lado, los métodos de Monte Carlo no son métodos de arranque. ¿Qué es exactamente bootstrapping en RL? ¿Qué es un método de arranque en RL?

23 reinforcement-learning

¿Cuál es la codificación posicional en el modelo de transformador?

Soy nuevo en ML y esta es mi primera pregunta aquí, lo siento si mi pregunta es tonta. Estoy tratando de leer y entender el documento. La atención es todo lo que necesitas y en él hay una imagen: No sé qué es la codificación posicional . al escuchar algunos …

23 nlp encoding attention-mechanism transformer

Transformación de características en datos de entrada

Estaba leyendo sobre la solución a este desafío OTTO Kaggle y la solución del primer lugar parece usar varias transformaciones para los datos de entrada X, por ejemplo Log (X + 1), sqrt (X + 3/8), etc. ¿Hay un guía general sobre cuándo aplicar qué transformaciones de tipo a varios …

22 machine-learning feature-extraction feature-scaling

Codificación de variables categóricas utilizando la estimación de probabilidad

Estoy tratando de entender cómo puedo codificar variables categóricas usando la estimación de probabilidad, pero hasta ahora he tenido poco éxito. Cualquier sugerencia sería muy apreciada.

22 feature-engineering

Compartir cuadernos Jupyter dentro de un equipo

Me gustaría configurar un servidor que pueda soportar un equipo de ciencia de datos de la siguiente manera: ser un punto central para almacenar, versionar, compartir y, posiblemente, también ejecutar cuadernos Jupyter. Algunas propiedades deseadas: Diferentes usuarios pueden acceder al servidor y abrir y ejecutar cuadernos almacenados por ellos o …

22 software-recommendation

Conceptos básicos de aprendizaje profundo

Estoy buscando un documento que detalle los conceptos básicos del aprendizaje profundo. Idealmente como el curso Andrew Ng para aprendizaje profundo. ¿Sabes dónde puedo encontrar esto?

22 machine-learning deep-learning

¿Es la ciencia de datos lo mismo que la minería de datos?

Estoy seguro de que la ciencia de datos como se discutirá en este foro tiene varios sinónimos o al menos campos relacionados donde se analizan datos grandes. Mi pregunta particular es con respecto a la minería de datos. Tomé una clase de posgrado en minería de datos hace unos años. …

22 data-mining definitions

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.

Licensed under cc by-sa 3.0 with attribution required.