Estadísticas y Big Data

8

Función objetivo, función de costo, función de pérdida: ¿son lo mismo?

En el aprendizaje automático, las personas hablan sobre la función objetivo, la función de costo, la función de pérdida. ¿Son solo nombres diferentes de la misma cosa? ¿Cuándo usarlos? Si no siempre se refieren a lo mismo, ¿cuáles son las diferencias?

80 machine-learning terminology artificial-intelligence

8

Calcular el número óptimo de contenedores en un histograma

Estoy interesado en encontrar un método lo más óptimo posible para determinar cuántos contenedores debo usar en un histograma. Mis datos deben oscilar entre 30 y 350 objetos como máximo, y en particular estoy tratando de aplicar un umbral (como el método de Otsu) donde los objetos "buenos", de los …

80 rule-of-thumb histogram

2

KL divergencia entre dos gaussianos univariados

Necesito determinar la divergencia KL entre dos gaussianos. Estoy comparando mis resultados con estos , pero no puedo reproducir su resultado. Mi resultado es obviamente incorrecto, porque el KL no es 0 para KL (p, p). Me pregunto dónde estoy cometiendo un error y pregunto si alguien puede detectarlo. Sea …

79 normal-distribution kullback-leibler

9

Probabilidad de un solo evento futuro en la vida real: ¿Qué significa cuando dicen que "Hillary tiene un 75% de posibilidades de ganar"?

Como la elección es un evento único, no es un experimento que se pueda repetir. Entonces, ¿qué significa técnicamente la afirmación "Hillary tiene un 75% de posibilidades de ganar" ? Estoy buscando una definición estadísticamente correcta, no intuitiva o conceptual. Soy un fanático de las estadísticas aficionadas que está tratando …

79 probability prediction politics

7

El libro del por qué de Judea Pearl: ¿Por qué está criticando las estadísticas?

Estoy leyendo El libro del por qué de Judea Pearl, y se está metiendo debajo de mi piel 1 . Específicamente, me parece que está criticando incondicionalmente las estadísticas "clásicas" al presentar un argumento falso de que las estadísticas nunca son capaces de investigar las relaciones causales, que nunca está …

79 causality

5

¿Cuál es la diferencia entre el aprendizaje fuera de política y dentro de política?

El sitio web de inteligencia artificial define el aprendizaje fuera de política y dentro de política de la siguiente manera: "Un alumno fuera de la política aprende el valor de la política óptima independientemente de las acciones del agente. Q-learning es un alumno fuera de la política. Un alumno dentro …

79 machine-learning reinforcement-learning artificial-intelligence

6

¿Cómo saber si los datos están "agrupados" lo suficiente como para que los algoritmos de agrupamiento produzcan resultados significativos?

¿Cómo podría saber si sus datos (de alta dimensión) exhiben suficiente agrupación para que los resultados de kmeans u otro algoritmo de agrupación sean realmente significativos? Para el algoritmo k-means en particular, ¿qué grado de reducción en la varianza dentro del clúster debería haber para que los resultados de la …

78 clustering k-means

21

Recursos gratuitos para aprender R

Estoy interesado en aprender R a bajo precio. ¿Cuál es el mejor recurso / libro / tutorial gratuito para aprender R?

78 r references

5

Cómo calcular el área bajo la curva (AUC), o la estadística c, a mano

Estoy interesado en calcular el área bajo la curva (AUC), o la estadística c, a mano para un modelo de regresión logística binaria. Por ejemplo, en el conjunto de datos de validación, tengo el valor verdadero para la variable dependiente, retención (1 = retenido; 0 = no retenido), así como …

78 regression logistic classification roc auc

7

¿Cuál es el beneficio de romper una variable predictiva continua?

Me pregunto cuál es el valor de tomar una variable predictora continua y dividirla (por ejemplo, en quintiles), antes de usarla en un modelo. Me parece que al agrupar la variable perdemos información. ¿Es esto solo para que podamos modelar efectos no lineales? Si mantenemos la variable continua y no …

78 regression modeling continuous-data binning regression-strategies

3

Un ejemplo: regresión LASSO usando glmnet para el resultado binario

Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

6

Agrupación en la salida de t-SNE

Tengo una aplicación en la que sería útil agrupar un conjunto de datos ruidoso antes de buscar efectos de subgrupo dentro de los grupos. Primero examiné PCA, pero se necesitan ~ 30 componentes para llegar al 90% de la variabilidad, por lo que agrupar en solo un par de PC …

78 clustering interpretation k-means tsne

1

Correlación entre una variable nominal (IV) y una variable continua (DV)

Tengo una variable nominal (diferentes temas de conversación, codificada como topic0 = 0, etc.) y varias variables de escala (DV), como la duración de una conversación. ¿Cómo puedo derivar correlaciones entre las variables nominales y de escala?

77 correlation continuous-data categorical-data

3

¿Cómo producir una bonita gráfica de los resultados del análisis de conglomerados k-means?

Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means ¿Cuál es una manera bonita de trazar los resultados de K-means? ¿Hay implementaciones existentes? ¿Tener 14 variables complica el trazado de los resultados? Encontré algo llamado GGcluster que se ve genial pero todavía está en desarrollo. …

77 data-visualization classification k-means unsupervised-learning

3

¿Cuándo es R al cuadrado negativo?

Entiendo que no puede ser negativo ya que es el cuadrado de R. Sin embargo, ejecuté una regresión lineal simple en SPSS con una sola variable independiente y una variable dependiente. Mi salida SPSS me da un valor negativo para . Si tuviera que calcular esto a mano desde R, …

77 regression spss r-squared