Estadísticas y Big Data

28

Dar sentido al análisis de componentes principales, vectores propios y valores propios

En la clase de reconocimiento de patrones de hoy, mi profesor habló sobre PCA, vectores propios y valores propios. Entendí las matemáticas de esto. Si me piden que encuentre valores propios, etc., lo haré correctamente como una máquina. Pero no lo entendí . No entendí el propósito. No pude sentirlo. …

976 pca intuition eigenvalues canonical-question

11

¿Cómo elegir el número de capas y nodos ocultos en una red neuronal de avance?

¿Existe un método estándar y aceptado para seleccionar el número de capas y el número de nodos en cada capa, en una red neuronal de avance? Estoy interesado en formas automatizadas de construir redes neuronales.

542 model-selection neural-networks

10

¿Cuál es la diferencia entre "probabilidad" y "probabilidad"?

La página de wikipedia afirma que la probabilidad y la probabilidad son conceptos distintos. En lenguaje no técnico, "verosimilitud" suele ser sinónimo de "probabilidad", pero en el uso estadístico hay una clara distinción en perspectiva: el número que es la probabilidad de algunos resultados observados dado un conjunto de valores …

474 probability likelihood

11

¿Cuál es la intuición detrás de la distribución beta?

Descargo de responsabilidad: no soy un estadístico sino un ingeniero de software. La mayor parte de mi conocimiento en estadística proviene de la autoeducación, por lo que todavía tengo muchas lagunas en la comprensión de conceptos que pueden parecer triviales para otras personas aquí. Así que estaría muy agradecido si …

438 distributions beta-distribution intuition beta-binomial

11

¿Cuál es la diferencia entre el conjunto de prueba y el conjunto de validación?

Encontré esto confuso cuando uso la caja de herramientas de red neuronal en Matlab. Dividió el conjunto de datos sin procesar en tres partes: conjunto de entrenamiento conjunto de validación equipo de prueba Noto que en muchos algoritmos de entrenamiento o aprendizaje, los datos a menudo se dividen en 2 …

431 machine-learning validation

20

Las dos culturas: ¿estadísticas vs. aprendizaje automático?

El año pasado, leí una publicación de blog de Brendan O'Connor titulada "Estadísticas vs. Aprendizaje automático, ¡lucha!" eso discutió algunas de las diferencias entre los dos campos. Andrew Gelman respondió favorablemente a esto : Simon Blomberg: Del paquete de fortunas de R: Parafraseando provocativamente, "el aprendizaje automático es estadística menos …

420 machine-learning pac-learning

22

¿Por qué cuadrar la diferencia en lugar de tomar el valor absoluto en la desviación estándar?

En la definición de desviación estándar, ¿por qué tenemos que cuadrar la diferencia de la media para obtener la media (E) y recuperar la raíz cuadrada al final? ¿No podemos simplemente tomar el valor absoluto de la diferencia y obtener el valor esperado (promedio) de esos, y eso no mostraría …

408 standard-deviation definition

5

Cómo entender los inconvenientes de K-means

K-means es un método ampliamente utilizado en el análisis de conglomerados. Según tengo entendido, este método NO requiere NINGUNA suposición, es decir, dame un conjunto de datos y un número predeterminado de clústeres, k, y simplemente aplico este algoritmo que minimiza la suma de los errores al cuadrado (SSE), dentro …

365 machine-learning clustering data-mining k-means

25

Python como banco de trabajo de estadísticas

Mucha gente usa una herramienta principal como Excel u otra hoja de cálculo, SPSS, Stata o R para sus necesidades estadísticas. Pueden recurrir a algún paquete específico para necesidades muy especiales, pero se pueden hacer muchas cosas con una simple hoja de cálculo o un paquete de estadísticas generales o …

355 r spss stata python

3

Relación entre SVD y PCA. ¿Cómo usar SVD para realizar PCA?

El análisis de componentes principales (PCA) generalmente se explica a través de una descomposición propia de la matriz de covarianza. Sin embargo, también se puede realizar a través de descomposición en valores singulares (SVD) de la matriz de datos . ¿Como funciona? ¿Cuál es la conexión entre estos dos enfoques? …

352 pca dimensionality-reduction matrix svd

30

¿Cuál es su dibujo animado favorito de "análisis de datos"?

Este es uno de mis favoritos: Una entrada por respuesta. (Esto está en la línea de la pregunta de desbordamiento de pila ¿ Cuál es tu dibujo animado favorito de "programador"? ) PD No conecte el dibujo animado sin el permiso del sitio, por favor.

343 humor

15

Razonamiento bayesiano y frecuentista en inglés sencillo

¿Cómo describirías en inglés las características que distinguen el razonamiento bayesiano del frecuente?

341 bayesian frequentist

11

Explicando a los laicos por qué funciona el bootstrapping

Recientemente utilicé bootstrapping para estimar los intervalos de confianza para un proyecto. Alguien que no sabe mucho sobre estadísticas recientemente me pidió que explicara por qué funciona el bootstrapping, es decir, por qué volver a muestrear la misma muestra una y otra vez da buenos resultados. Me di cuenta de …

326 bootstrap communication

18

¿Qué sucede si las variables explicativas y de respuesta se ordenan independientemente antes de la regresión?

Supongamos que tenemos un conjunto de datos con puntos. Queremos realizar una regresión lineal, pero primero clasificamos los valores y los valores independientemente uno del otro, formando un conjunto de datos . ¿Hay alguna interpretación significativa de la regresión en el nuevo conjunto de datos? esto tiene nombre?( Xyo, Yyo)(Xi,Yi)(X_i,Y_i)nortennY …

302 regression correlation

10

Diferencia entre modelos logit y probit

¿Cuál es la diferencia entre el modelo Logit y Probit ? Aquí estoy más interesado en saber cuándo usar la regresión logística y cuándo usar Probit. Si hay alguna literatura que lo defina usando R , eso también sería útil.

299 r generalized-linear-model logistic probit link-function