Estadísticas y Big Data stata

25

Python como banco de trabajo de estadísticas

Mucha gente usa una herramienta principal como Excel u otra hoja de cálculo, SPSS, Stata o R para sus necesidades estadísticas. Pueden recurrir a algún paquete específico para necesidades muy especiales, pero se pueden hacer muchas cosas con una simple hoja de cálculo o un paquete de estadísticas generales o …

355 r spss stata python

3

Interpretación del logaritmo transformador predictor y / o respuesta

Me pregunto si hace una diferencia en la interpretación si solo el dependiente, tanto el dependiente como el independiente, o solo las variables independientes se transforman logarítmicamente. Considere el caso de log(DV) = Intercept + B1*IV + Error Puedo interpretar el IV como el porcentaje de aumento, pero ¿cómo cambia …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

Replicando la opción "robusta" de Stata en R

He estado tratando de replicar los resultados de la opción Stata robusten R. He utilizado el rlmcomando del paquete MASS y también el comando lmrobdel paquete "robustbase". En ambos casos, los resultados son bastante diferentes de la opción "robusta" en Stata. ¿Alguien puede sugerir algo en este contexto? Aquí están …

39 r stata robust robust-standard-error

4

Prueba exacta de Fisher en tablas de contingencia mayores de 2x2

Me enseñaron a aplicar solo la prueba exacta de Fisher en tablas de contingencia que eran 2x2. Preguntas: ¿El propio Fisher alguna vez imaginó que esta prueba se usaría en tablas de más de 2x2? (Soy consciente de la historia de él ideando la prueba mientras intentaba adivinar si una …

29 spss stata contingency-tables fishers-exact

1

¿Pueden los grados de libertad ser un número no entero?

Cuando uso GAM, me da un DF residual de 26.626.626.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero? > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

¿Por qué obtengo una variación cero de un efecto aleatorio en mi modelo mixto, a pesar de alguna variación en los datos?

Hemos ejecutado una regresión logística de efectos mixtos utilizando la siguiente sintaxis; # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) Sujeto y elemento son los efectos aleatorios. Estamos obteniendo un resultado impar, que es el coeficiente …

22 r mixed-model stata glmm lme4-nlme

1

¿Cuál es el equivalente no paramétrico de un ANOVA de dos vías que puede incluir interacciones?

Hola, estoy tratando de encontrar el equivalente no paramétrico de un ANOVA de dos vías (diseño 3x4) que sea capaz de incluir interacciones. De mi lectura en Zar 1984 "Análisis bioestadístico" esto es posible usando un método presentado en Scheirer, Ray y Hare (1976), sin embargo, según otras publicaciones en …

20 r anova nonparametric stata interaction

4

¿Cuáles son los valores correctos para precisión y recuperación en casos extremos?

La precisión se define como: p = true positives / (true positives + false positives) ¿Es cierto que, como true positivesy false positivesenfoque 0, la precisión se aproxima a 1? La misma pregunta para recordar: r = true positives / (true positives + false negatives) Actualmente estoy implementando una prueba …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

¿Qué diagnóstico puede validar el uso de una familia particular de GLM?

Esto parece muy elemental, pero siempre me atoro en este punto ... La mayoría de los datos con los que trato no son normales, y la mayoría de los análisis se basan en una estructura GLM. Para mi análisis actual, tengo una variable de respuesta que es "velocidad de marcha" …

19 generalized-linear-model stata gamma-distribution

1

Error estándar de efectos aleatorios en R (lme4) vs Stata (xtmixed)

Por favor considere estos datos: dt.m <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), occasion = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, …

19 r mixed-model stata lme4-nlme

4

La precisión de la máquina de aumento de gradiente disminuye a medida que aumenta el número de iteraciones

Estoy experimentando con el algoritmo de la máquina de aumento de gradiente a través del caretpaquete en R. Usando un pequeño conjunto de datos de admisión a la universidad, ejecuté el siguiente código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

2SLS pero Probit de segunda etapa

Estoy tratando de usar el análisis de variables instrumentales para inferir causalidad con datos observacionales. Me he encontrado con una regresión de mínimos cuadrados de dos etapas (2SLS) que probablemente aborde el problema de endogeneidad en mi investigación. Sin embargo, me gustaría que la primera etapa sea OLS y que …

15 stata probit instrumental-variables 2sls

5

¿Cómo dedico las series temporales?

¿Cómo detrendo series de tiempo? ¿Está bien tomar la primera diferencia y ejecutar una prueba de Dickey Fuller, y si es estacionaria, estamos bien? También descubrí en línea que puedo eliminar la tendencia de las series de tiempo haciendo esto en Stata: reg lncredit time predict u_lncredit, residuals twoway line …

13 regression time-series stata stationarity

4

Puntaje de propensión que coincide con los datos del panel

Tengo un conjunto de datos longitudinales de individuos y algunos de ellos estaban sujetos a un tratamiento y otros no. Todos los individuos están en la muestra desde el nacimiento hasta los 18 años y el tratamiento ocurre a alguna edad entre ese rango. La edad del tratamiento puede variar …

13 stata panel-data propensity-scores

2

¿Cómo interpreto un modelo probit en Stata?

No estoy seguro de cómo interpretar esta regresión probit que ejecuté en Stata. Los datos están en la aprobación del préstamo y el blanco es una variable ficticia que = 1 si una persona era blanca y = 0 si la persona no lo era. Cualquier ayuda sobre cómo leer …

13 regression multiple-regression stata

Preguntas etiquetadas con stata