Estadísticas y Big Data modeling

3

La formulación de un modelo matemático para un problema es uno de los aspectos más subjetivos de la estadística, pero también uno de los más importantes. ¿Cuáles son las mejores referencias que abordan este tema crucial pero a menudo ignorado? ¿Y qué estadístico famoso dijo algo como "Deja que los …

9 modeling references

2

Discutir regresión binomial y estrategias de modelado

Hoy tengo una pregunta sobre la regresión binomial / logística, se basa en un análisis que un grupo de mi departamento ha realizado y que estaba buscando comentarios. Hice el siguiente ejemplo para proteger su anonimato, pero estaban ansiosos por ver las respuestas. En primer lugar, el análisis comenzó con …

8 logistic modeling binomial model-selection

2

¿Cómo puedo comparar modelos sin ajustar?

La regresión y el aprendizaje automático se utilizan en las ciencias naturales para probar hipótesis, estimar parámetros y hacer predicciones ajustando modelos a los datos. Sin embargo, cuando tengo un modelo a priori , no quiero hacer ningún ajuste, por ejemplo, un modelo de un sistema físico determinista calculado a …

8 modeling simulation goodness-of-fit model-comparison

2

¿Pueden los pesos y la compensación conducir a resultados similares en la regresión de Poisson?

En la "Guía de un practicante de modelos lineales generalizados" en el párrafo 1.83 se afirma que: "En el caso particular de un GLM multiplicativo de Poisson, se puede demostrar que el reclamo de modelado cuenta con un término de compensación igual al logaritmo de la exposición que produjo resultados …

8 generalized-linear-model modeling poisson-regression weights offset

3

Cómo realizar SVD para imputar valores perdidos, un ejemplo concreto

He leído los excelentes comentarios sobre cómo lidiar con los valores perdidos antes de aplicar SVD, pero me gustaría saber cómo funciona con un ejemplo simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada la matriz anterior, …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

Independencia estadística en el mundo real

Leí el siguiente artículo sobre independencia estadística . En resumen, el artículo argumenta que "es hora de que la ciencia retire la ficción de la independencia estadística", y continúa explicando diferentes razones por las cuales. Después de leer el artículo, tiendo a estar de acuerdo. Quería saber lo siguiente: ¿Qué …

8 modeling independence

1

Varios modelos ARIMA se ajustan bien a los datos. ¿Cómo determinar el orden? Enfoque correcto?

Tengo dos series de tiempo (parámetros de un modelo para hombres y mujeres) y mi objetivo es identificar un modelo ARIMA apropiado para hacer pronósticos. Mi serie de tiempo se ve así: El gráfico y el ACF muestran no estacionario (los picos del ACF se cortan muy lentamente). Por lo …

8 r time-series modeling arima autocorrelation

3

Encuentra distribución y transforma a distribución normal

Tengo datos que describen con qué frecuencia tiene lugar un evento durante una hora ("número por hora", nph) y cuánto duran los eventos ("duración en segundos por hora", dph). Estos son los datos originales: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

Una persona selecciona repetidamente los dos elementos más similares de los tres. ¿Cómo modelar / estimar una distancia perceptiva entre los artículos?

A una persona se le dan tres elementos, dicen fotos de caras, y se le pide que elija cuáles de las tres caras son las más similares. Esto se repite una gran cantidad de veces con diferentes combinaciones de caras, donde cada cara puede ocurrir en muchas combinaciones. Dado este …

8 modeling dimensionality-reduction psychometrics similarities

1

Modelos de estado ocultos versus modelos sin estado para regresión de series de tiempo

Esta es una pregunta bastante genérica: suponga que quiero construir un modelo para predecir la próxima observación basada en la anterior. norteNN observaciones (norteNNpuede ser un parámetro para optimizar experimentalmente). Básicamente, tenemos una ventana deslizante de características de entrada para predecir la próxima observación. Puedo usar un enfoque de Modelo …

8 regression time-series modeling prediction hidden-markov-model

2

¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Prueba post hoc en un ANOVA de diseño mixto 2x3 con SPSS?

Tengo dos grupos de 10 participantes que fueron evaluados tres veces durante un experimento. Para probar las diferencias entre los grupos y entre las tres evaluaciones, ejecuté un ANOVA de diseño mixto 2x3 con group(control, experimental), time(primero, segundo, tres) y group x time. Ambos timey groupresultaron significativos, además hubo una …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

¿Qué dicen los gráficos de elevación y ganancia en el contexto de un modelo de rotación de empleados?

Por lo tanto, estoy tratando de comprender mejor los gráficos de elevación y ganancia según se aplica a mi modelo de rotación de empleados (es decir, CHAID utilizado en SPSS Modeler). Para mis datos, esto significa predecir el número de personas que abandonan voluntariamente la empresa. He revisado las referencias …

8 modeling predictive-models

1

Modelado de idiomas: ¿por qué es tan importante sumar 1?

En muchas aplicaciones de procesamiento de lenguaje natural, como corrección ortográfica, traducción automática y reconocimiento de voz, utilizamos modelos de lenguaje. Los modelos de lenguaje se crean generalmente contando con qué frecuencia ocurren secuencias de palabras (n-gramos) en un corpus grande y normalizando los recuentos para crear una probabilidad. Para …

8 distributions modeling natural-language language-models

4

Versión flexible de regresión logística.

Estoy tratando de ajustar una regresión logística donde hay una gran diferencia en el número de puntos de datos en cualquier grupo (70 Vs 10,000). Un amigo estadístico mío me ha dicho que este es un problema conocido con la regresión logística y que para ese tipo de números excede …

8 modeling logistic binary-data

Preguntas etiquetadas con modeling