Estadísticas y Big Data multiple-regression

2

¿Por qué algunas estimaciones de regresión difieren por un cambio de signo, pero otras no, cuando cambio el nivel de referencia?

Supongamos que tengo un resultado continuo yy dos predictores factoriales, cada uno con dos niveles. Uno de mis predictores categóricos drug, puede tener dos niveles ("A" o "B"), el otro es smokeYes. Cuando ejecuto un modelo de regresión, puedo elegir la línea base o el nivel de referencia drugpara que …

8 regression anova multiple-regression contrasts

3

Encuentra distribución y transforma a distribución normal

Tengo datos que describen con qué frecuencia tiene lugar un evento durante una hora ("número por hora", nph) y cuánto duran los eventos ("duración en segundos por hora", dph). Estos son los datos originales: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Modelado de tasas de mortalidad mediante regresión de Poisson

Estoy examinando las tendencias (entre 1998 y 2011) en las tasas de mortalidad entre pacientes con enfermedad de Crohn. Cada paciente (caso) se incluyó entre 1998 y 2011. En el momento de la inclusión, cada paciente se comparó con un control saludable con la misma edad y sexo. Estoy analizando …

8 regression multiple-regression survival poisson-regression

2

¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

4

Regresión de datos que incluye una fecha

Tengo un conjunto de datos que contiene unos cientos de transacciones de tres proveedores que operan en más de 100 países durante un período de tres años. Hemos descubierto que el país de ventas no es un factor significativo en los precios alcanzados (los productos son más o menos productos …

8 r time-series multiple-regression

1

Si ejecuta la regresión OLS en datos de sección transversal, ¿debería probar la autocorrelación en los residuos?

Tengo un conjunto de observaciones, independiente del tiempo. Me pregunto si debería ejecutar alguna prueba de autocorrelación. Me parece que no tiene sentido, ya que no hay un componente de tiempo en mis datos. Sin embargo, en realidad probé la prueba LM de correlación en serie e indica una fuerte …

8 multiple-regression least-squares autocorrelation residuals cross-section

1

Codificación ficticia para contrastes: 0,1 frente a 1, -1

Estoy buscando su ayuda para comprender la diferencia entre dos contrastes diferentes para variables dicotómicas. En esta página: http://www.psychstat.missouristate.edu/multibook/mlt08.htm bajo "Variables de predictores dicotómicos", hay dos formas de codificar predictores dicotómicos: usando el contraste 0,1 o el contraste 1, -1 . Comprendo la distinción aquí (0,1 es una codificación ficticia …

8 multiple-regression categorical-data categorical-encoding

3

Prueba post hoc en un ANOVA de diseño mixto 2x3 con SPSS?

Tengo dos grupos de 10 participantes que fueron evaluados tres veces durante un experimento. Para probar las diferencias entre los grupos y entre las tres evaluaciones, ejecuté un ANOVA de diseño mixto 2x3 con group(control, experimental), time(primero, segundo, tres) y group x time. Ambos timey groupresultaron significativos, además hubo una …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Líneas rectas paralelas en parcela residual vs parcela ajustada

Tengo un problema de regresión múltiple, que intenté resolver usando una regresión múltiple simple: model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data) Esto parece estar explicando el 85% de la varianza (según R cuadrado) que parece bastante bueno. Sin embargo, lo que me preocupa …

8 r regression multiple-regression

1

Intervalos de confianza al usar el teorema de Bayes

Estoy calculando algunas probabilidades condicionales y los intervalos de confianza del 95% asociados. Para muchos de mis casos, tengo recuentos directos de xéxitos fuera de los nensayos (de una tabla de contingencia), por lo que puedo usar un intervalo de confianza binomial, como se proporciona binom.confint(x, n, method='exact')en R. Sin …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

2

Series temporales con múltiples sujetos y múltiples variables.

Soy desarrollador web y estadístico novato. Mis datos se parecen a esto Subject Week x1 x2 x3 x4 x5 y1 A 1 .5 .6 .7 .8 .7 10 B 1 .3 .6 .2 .1 .3 8 C 1 .3 .1 .2 .3 .2 6 A 2 .1 .9 1.5 .8 …

8 r regression time-series multiple-regression python

3

Coeficiente de interpretación en un modelo de regresión lineal con variables categóricas

Daré mis ejemplos con llamadas R. Primero, un ejemplo simple de una regresión lineal con una variable dependiente 'vida útil', y dos variables explicativas continuas. data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 …

8 r multiple-regression interpretation regression-coefficients

Preguntas etiquetadas con multiple-regression