Estadísticas y Big Data regression

4

Indicios de que un problema es adecuado para la regresión lineal.

Estoy aprendiendo regresión lineal usando Introducción al análisis de regresión lineal de Montgomery, Peck y Vining . Me gustaría elegir un proyecto de análisis de datos. Tengo la ingenua idea de que la regresión lineal es adecuada solo cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas …

12 regression data-transformation model linear regression-strategies

2

Traducción del problema de aprendizaje automático al marco de regresión

Supongamos que tengo un panel de variables explicativas , para , , así como un vector de variables dependientes de resultados binarios . Por lo tanto, solo se observa en el momento final y no en ningún momento anterior. El caso totalmente general es tener múltiples para para cada unidad …

12 regression machine-learning reinforcement-learning

3

¿Por qué no se utiliza el método de retención (división de datos en capacitación y pruebas) en las estadísticas clásicas?

En mi exposición en el aula a la minería de datos, el método de retención se introdujo como una forma de evaluar el rendimiento del modelo. Sin embargo, cuando tomé mi primera clase de modelos lineales, esto no se introdujo como un medio de validación o evaluación del modelo. Mi …

12 regression validation model-evaluation out-of-sample

3

Comprender los parámetros de la función de base gaussiana que se utilizarán en la regresión lineal

Me gustaría aplicar la función de base gaussiana en una implementación de regresión lineal. Lamentablemente, me está costando entender un par de parámetros en la función base. Específicamente y .μμ\muσσ\sigma Mi conjunto de datos es una matriz de 10,000 x 31. 10.000 muestras y 31 características. He leído que "Cada …

12 regression machine-learning basis-function

2

¿Es más probable que X e Y distribuidos resulten en residuos distribuidos normalmente?

Aquí se discute la interpretación errónea del supuesto de normalidad en la regresión lineal (que la "normalidad" se refiere a X y / o Y en lugar de los residuos), y el póster pregunta si es posible tener X e Y no distribuidos normalmente y todavía tienen residuos distribuidos normalmente. …

12 regression normal-distribution data-transformation residuals assumptions

5

¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?

Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

¿Podemos hacer declaraciones probabilísticas con intervalos de predicción?

He leído las excelentes discusiones en el sitio sobre la interpretación de los intervalos de confianza y los intervalos de predicción, pero un concepto sigue siendo un poco desconcertante: Considere el marco OLS y hemos obtenido el modelo ajustado . Se nos da una y se nos pide que predijamos …

12 regression confidence-interval prediction-interval

2

Regresión escalonada en R - Valor p crítico

¿Cuál es el valor p crítico utilizado por la step()función en R para la regresión por pasos? Supongo que es 0.15, pero ¿es correcta mi suposición? ¿Cómo puedo cambiar el valor p crítico?

12 r regression p-value stepwise-regression

1

Información de la matriz de sombreros para regresión logística

Para mí está claro, y bien explicado en múltiples sitios, qué información dan los valores en la diagonal de la matriz del sombrero para la regresión lineal. La matriz del sombrero de un modelo de regresión logística es menos clara para mí. ¿Es idéntico a la información que obtiene de …

12 regression logistic

4

Supuestos de distribución residual de regresión

¿Por qué es necesario colocar el supuesto de distribución en los errores, es decir? yyo= Xβ+ ϵyoyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , con .ϵyo∼ N( 0 , σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) Porque no escribir yyo= Xβ+ ϵyoyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , con ,yyo∼ N( Xβ^, σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) donde en …

12 regression normal-distribution residuals assumptions notation

1

Modelado cuando la variable dependiente tiene un "corte"

Disculpas de antemano si alguna de la terminología que uso es incorrecta. Agradecería cualquier corrección. Si lo que describo como "corte" tiene un nombre diferente, avíseme y puedo actualizar la pregunta. La situación que me interesa es esta: tiene variables independientes xx\bf{x} una sola variable dependiente yyy . Lo dejaré …

12 regression modeling survival censoring

5

Algoritmo de mínimos cuadrados regularizado recursivo (en línea)

¿Alguien puede señalarme en la dirección de un algoritmo en línea (recursivo) para la regularización de Tikhonov (mínimos cuadrados regularizados)? En una configuración fuera de línea, calcularía usando mi conjunto de datos original donde se encuentra usando la validación cruzada n-fold. Se puede predecir un nuevo valor de y para …

12 regression machine-learning least-squares regularization online

2

¿Por qué algunas personas prueban los supuestos del modelo similar a la regresión en sus datos sin procesar y otras personas los prueban en el residual?

Soy un estudiante de doctorado en psicología experimental y me esfuerzo por mejorar mis habilidades y conocimientos sobre cómo analizar mis datos. Hasta mi quinto año en psicología, pensé que los modelos de regresión (por ejemplo, ANOVA) suponen lo siguiente: normalidad de los datos homogeneidad de varianza para los datos, …

12 regression dataset residuals assumptions

1

Criterios para seleccionar el "mejor" modelo en un modelo oculto de Markov

Tengo un conjunto de datos de series temporales en el que estoy tratando de ajustar un Modelo de Markov Oculto (HMM) para estimar el número de estados latentes en los datos. Mi pseudo código para hacer esto es el siguiente: for( i in 2 : max_number_of_states ){ ... calculate HMM …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

2

Modelo mixto con 1 observación por nivel

Estoy ajustando un modelo de efectos aleatorios con glmeralgunos datos comerciales. El objetivo es analizar el desempeño de ventas por distribuidor, teniendo en cuenta la variación regional. Tengo las siguientes variables: distcode: ID de distribuidor, con aproximadamente 800 niveles region: ID geográfica de nivel superior (norte, sur, este, oeste) zone: …

12 r regression mixed-model lme4-nlme

Preguntas etiquetadas con regression