Trataré de responder sus preguntas, pero antes me gustaría señalar que usar el término "conjunto de datos grande" es engañoso, ya que "grande" es un concepto relativo . Tienes que proporcionar más detalles. Si se trata de datos de ofertas , este hecho probablemente afectará la selección de herramientas , enfoques y algoritmos preferidos para su análisis de datos . Espero que los siguientes pensamientos míos sobre el análisis de datos aborden sus subpreguntas. Tenga en cuenta que la numeración de mis puntos no coincide con la numeración de sus subpreguntas. Sin embargo, creo que refleja mejor el flujo de trabajo de análisis de datos generales , al menos, cómo lo entiendo.
1) En primer lugar, creo que debe tener al menos algún tipo de modelo conceptual en mente (o, mejor, en papel). Este modelo debe guiarlo en su análisis de datos exploratorios (EDA) . La presencia de una variable dependiente (DV) en el modelo significa que en su fase de aprendizaje automático (ML) más adelante en el análisis, se enfrentará al denominado ML supervisado, en oposición al ML no supervisado en ausencia de un DV identificado.
2) En segundo lugar, EDA es una parte crucial. En mi humilde opinión, EDA debe incluir múltiples iteraciones de producción de estadísticas descriptivas y visualización de datos , a medida que refina su comprensión sobre los datos. No solo esta fase le brindará información valiosa sobre sus conjuntos de datos, sino que alimentará su próxima fase importante: la limpieza y transformación de datos . Simplemente arrojar sus datos en bruto en un paquete de software estadístico no dará mucho: para cualquier análisis estadístico válido , los datos deben ser limpios, correctos y consistentes . Esta suele ser la parte que requiere más tiempo y esfuerzo, pero es absolutamente necesaria. Para más detalles sobre este tema, lea estos bonitos documentos:http://vita.had.co.nz/papers/tidy-data.pdf (por Hadley Wickham) y http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (por Edwin de Jonge y Mark van der Loo).
3) Ahora, como es de esperar que haya terminado con EDA , así como con la limpieza y transformación de datos, está listo para comenzar algunas fases más estadísticamente involucradas. Una de esas fases es el análisis factorial exploratorio (EFA) , que le permitirá extraer la estructura subyacente de sus datos. Para conjuntos de datos con gran número de variables, el efecto secundario positivo de EFA es la reducción de dimensionalidad . Y, aunque en ese sentido, la EPT es similar al análisis de componentes principales (PCA)y otros enfoques de reducción de dimensionalidad, creo que EFA es más importante ya que permite refinar su modelo conceptual de los fenómenos que sus datos "describen", lo que da sentido a sus conjuntos de datos. Por supuesto, además de EFA, puede / debe realizar análisis de regresión y aplicar técnicas de aprendizaje automático , en función de sus hallazgos en fases anteriores.
Finalmente, una nota sobre herramientas de software . En mi opinión, el estado actual de los paquetes de software estadístico es tal que prácticamente todos los paquetes de software principales tienen ofertas comparables en cuanto a características. Si estudias o trabajas en una organización que tiene ciertas políticas y preferencias en términos de herramientas de software, entonces estas limitado . Sin embargo, si ese no es el caso, recomendaría encarecidamente el software estadístico de código abierto, basado en su comodidad con su lenguaje de programación específico , curva de aprendizaje y sus perspectivas de carrera . Mi plataforma de elección actual es R Project, que ofrece software estadístico maduro, potente, flexible, extenso y abierto, junto con un sorprendente ecosistema de paquetes, expertos y entusiastas. Otras buenas opciones incluyen Python , Julia y software específico de código abierto para procesar grandes datos , como Hadoop , Spark , bases de datos NoSQL , WEKA . Para obtener más ejemplos de software de código abierto para la minería de datos , que incluye software estadístico y ML general y específico, consulte esta sección de una página de Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
ACTUALIZACIÓN: Olvidé mencionar Rattle ( http://rattle.togaware.com ), que también es un software GUI de código abierto orientado a R muy popular para la minería de datos.