Estadísticas y Big Data

Preguntas y respuestas para personas interesadas en estadísticas, aprendizaje automático, análisis de datos, minería de datos y visualización de datos.




7
¿Cuáles son los 'grandes problemas' en las estadísticas?
Las matemáticas tienen sus famosos Problemas del Milenio (e, históricamente, los 23 de Hilbert ), preguntas que ayudaron a dar forma a la dirección del campo. Sin embargo, tengo poca idea de cuáles serían las hipótesis de Riemann y las estadísticas de P vs. NP. Entonces, ¿cuáles son las preguntas …
77 history 



5
¿Cuáles son las alternativas modernas y fáciles de usar para la regresión gradual?
Tengo un conjunto de datos con alrededor de 30 variables independientes y me gustaría construir un modelo lineal generalizado (GLM) para explorar la relación entre ellos y la variable dependiente. Soy consciente de que el método que me enseñaron para esta situación, la regresión gradual, ahora se considera un pecado …

3
Selección de características y validación cruzada
Recientemente he estado leyendo mucho en este sitio (@Aniko, @Dikran Marsupial, @Erik) y en otros lugares sobre el problema del sobreajuste que ocurre con la validación cruzada - (Smialowski et al 2010 Bioinformática, Hastie, Elementos de aprendizaje estadístico). La sugerencia es que cualquier selección de características supervisadas (utilizando la correlación …


6
Selección de características para el modelo "final" cuando se realiza la validación cruzada en el aprendizaje automático
Estoy un poco confundido acerca de la selección de funciones y el aprendizaje automático y me preguntaba si podrían ayudarme. Tengo un conjunto de datos de microarrays que se clasifica en dos grupos y tiene miles de características. Mi objetivo es obtener una pequeña cantidad de genes (mis características) (10-20) …




5
Por favor explique la paradoja que espera
Hace unos años diseñé un detector de radiación que funciona midiendo el intervalo entre eventos en lugar de contarlos. Mi suposición era que, al medir muestras no contiguas, en promedio mediría la mitad del intervalo real. Sin embargo, cuando probé el circuito con una fuente calibrada, la lectura era un …

2
Métodos de remuestreo / simulación: monte carlo, bootstrapping, jackknifing, validación cruzada, pruebas de aleatorización y pruebas de permutación
Estoy tratando de entender la diferencia entre los diferentes métodos de remuestreo (simulación Monte Carlo, bootstrapping paramétrico, bootstrapping no paramétrico, jackknifing, validación cruzada, pruebas de aleatorización y pruebas de permutación) y su implementación en mi propio contexto usando R. Digamos que tengo la siguiente situación: quiero realizar ANOVA con una …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.