Preguntas etiquetadas con large-data

Los 'datos grandes' se refieren a situaciones en las que el número de observaciones (puntos de datos) es tan grande que necesita cambios en la forma en que el analista de datos piensa o realiza el análisis. (No debe confundirse con 'alta dimensionalidad').


4
Prueba de hipótesis con Big Data
¿Cómo se realizan las pruebas de hipótesis con Big Data? Escribí el siguiente script de MATLAB para enfatizar mi confusión. Todo lo que hace es generar dos series aleatorias y ejecutar una regresión lineal simple de una variable sobre la otra. Realiza esta regresión varias veces utilizando diferentes valores aleatorios …



1
¿Es posible la PCA a gran escala?
La forma clásica del análisis de componentes principales (PCA) es hacerlo en una matriz de datos de entrada cuyas columnas tienen media cero (entonces PCA puede "maximizar la varianza"). Esto se puede lograr fácilmente centrando las columnas. Sin embargo, cuando la matriz de entrada es escasa, la matriz centrada ahora …


2
¿Tiene sentido calcular intervalos de confianza y probar hipótesis cuando hay datos disponibles de toda la población?
¿Tiene sentido calcular intervalos de confianza y probar hipótesis cuando hay datos disponibles de toda la población? En mi opinión, la respuesta es no, ya que podemos calcular con precisión los valores verdaderos de los parámetros. Pero entonces, ¿cuál es la proporción máxima de datos de la población original que …






2
Reducción de dimensión escalable
Teniendo en cuenta la cantidad constante de características, Barnes-Hut t-SNE tiene una complejidad de , las proyecciones aleatorias y PCA tienen una complejidad de hace "asequibles" para conjuntos de datos muy grandes.O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) Por otro lado, los métodos que se basan en el escalamiento multidimensional tienen una complejidad .O(n2)O(n2)O(n^2) ¿Existen …


2

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.