Ciencia de los datos

2

¿Cómo puedo ajustar los tipos de datos categóricos para la clasificación aleatoria de bosques?

Necesito encontrar la precisión de un conjunto de datos de entrenamiento mediante la aplicación de Algoritmo de bosque aleatorio. Pero mi tipo de conjunto de datos es categórico y numérico. Cuando intenté ajustar esos datos, recibí un error. 'La entrada contiene NaN, infinito o un valor demasiado grande para dtype …

11 python data-mining random-forest

3

¿Qué es LSTM, BiLSTM y cuándo usarlos?

Soy muy nuevo en el aprendizaje profundo y estoy particularmente interesado en saber qué son LSTM y BiLSTM y cuándo usarlos (áreas principales de aplicación). ¿Por qué LSTM y BILSTM son más populares que RNN? ¿Podemos usar estas arquitecturas de aprendizaje profundo en problemas no supervisados?

11 machine-learning deep-learning rnn lstm

2

Comportamiento extraño con Adam Optimizer cuando se entrena durante demasiado tiempo

Estoy tratando de entrenar un solo perceptrón (1000 unidades de entrada, 1 salida, sin capas ocultas) en 64 puntos de datos generados aleatoriamente. Estoy usando Pytorch usando el optimizador Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = …

11 perceptron pytorch

4

Aprendizaje automático vs Aprendizaje profundo

Estoy un poco confundido por la diferencia entre los términos "Machine Learning" y "Deep Learning". Lo busqué en Google y leí muchos artículos, pero todavía no me queda muy claro. Una definición conocida de Machine Learning por Tom Mitchell es: Un programa informático se dice que aprender de la experiencia …

11 machine-learning deep-learning

4

Medida de rendimiento: ¿Por qué se llama recordar?

la precisión es la fracción de instancias recuperadas que son relevantes, mientras que la recuperación (también conocida como sensibilidad) es la fracción de instancias relevantes que se recuperan. Sé su significado, pero no sé por qué se llama recordar . No soy hablante nativo de inglés. Sé que recordar significa …

11 performance terminology

4

Overfitting / Underfitting with Data set size

En el siguiente gráfico, eje x => Tamaño del conjunto de datos eje y => Puntuación de validación cruzada La línea roja es para datos de entrenamiento La línea verde es para probar datos En un tutorial al que me refiero, el autor dice que el punto donde se superponen …

11 machine-learning cross-validation

1

¿Qué sucede cuando entrenamos un SVM lineal en datos separables no linealmente?

¿Qué sucede cuando entrenamos una máquina de vectores de soporte básico (núcleo lineal y sin margen blando) en datos separables no linealmente? El problema de optimización no es factible, entonces, ¿qué devuelve el algoritmo de minimización?

11 machine-learning svm

1

Intuición para el parámetro de regularización en SVM

¿Cómo cambiar el parámetro de regularización en un SVM cambia el límite de decisión para un conjunto de datos no separable? Sería muy útil una respuesta visual y / o algún comentario sobre los comportamientos limitantes (para regularizaciones grandes y pequeñas).

11 svm

2

Las diferencias entre SVM y regresión logística

Estoy leyendo SVMy me he enfrentado al punto de que los no kernelized SVMsno son más que separadores lineales. Por lo tanto, ¿es la única diferencia entre una SVMregresión logística y el criterio para elegir el límite? Aparentemente, SVMelige el clasificador de margen máximo y la regresión logística es la …

11 machine-learning classification svm logistic-regression generalization

1

Precisión del tren vs Precisión de prueba vs matriz de confusión

Después de desarrollar mi modelo predictivo utilizando Random Forest, obtengo las siguientes métricas: Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] Estos son los resultados de este código: training_features, test_features, training_target, test_target, = train_test_split(df.drop(['bad_loans'], axis=1), df['target'], test_size = .3, random_state=12) clf = RandomForestClassifier() …

11 python predictive-modeling accuracy confusion-matrix classifier

2

Opciones de manejo de características categóricas de Catboost (configuración de CTR)

Estoy trabajando con un conjunto de datos con una gran cantidad de características categóricas (> 80%) que predicen una variable objetivo continua (es decir, Regresión). He estado leyendo bastante sobre formas de manejar características categóricas. Y aprendí que la codificación única que he estado usando en el pasado es una …

11 machine-learning decision-trees categorical-data

3

¿Es necesaria la selección de funciones?

Me gustaría ejecutar algún modelo de aprendizaje automático como bosque aleatorio, aumento de gradiente o SVM en mi conjunto de datos. Hay más de 200 variables predictoras en mi conjunto de datos y mis clases objetivo son una variable binaria. ¿Necesito ejecutar la selección de características antes de la adaptación …

11 machine-learning predictive-modeling feature-selection random-forest

1

¿Cuál es la diferencia en xgboost binary: logistic y reg: logistic

¿Cuál es la diferencia en R en xgboost entre binary: logistic y reg: logistic? ¿Es solo en métrica de evaluación? En caso afirmativo, ¿cómo se compara RMSE en la clasificación binaria con la tasa de error? ¿La relación entre las métricas es más o menos monótona, el resultado del ajuste …

11 r logistic-regression xgboost

2

¿Qué es una codificación activa en tensorflow?

Actualmente estoy haciendo un curso en Tensorflow en el que utilizaron tf.one_hot (índices, profundidad). Ahora no entiendo cómo estos índices cambian en esa secuencia binaria. ¿Alguien puede explicarme el proceso exacto?

10 machine-learning python neural-network deep-learning tensorflow

6

¿Es Excel suficiente para la ciencia de datos?

Estoy en el proceso de preparación para impartir un curso introductorio sobre ciencia de datos utilizando el lenguaje de programación R. Mi audiencia son estudiantes de pregrado con especialización en temas de negocios. Un estudiante universitario de negocios típico no tiene experiencia en programación de computadoras, pero ha tomado algunas …

10 programming excel