Recientemente comencé a enseñarme a mí mismo el Aprendizaje automático y el Análisis de datos. Me encuentro con un obstáculo en la necesidad de crear y consultar grandes conjuntos de datos. Me gustaría tomar datos que he estado agregando en mi vida profesional y personal y analizarlos, pero no estoy seguro de la mejor manera de hacer lo siguiente:
¿Cómo debo almacenar estos datos? ¿Sobresalir? SQL? ??
¿Cuál es una buena manera para que un principiante comience a analizar estos datos? Soy un programador informático profesional, por lo que la complejidad no está en escribir programas, sino que es más o menos específica para el dominio del análisis de datos.
EDITAR: Disculpas por mi vaguedad, cuando comienzas a aprender algo es difícil saber lo que no sabes, ¿sabes? ;)
Dicho esto, mi objetivo es aplicar esto a dos temas principales:
Métricas del equipo de software (piense en la velocidad ágil, cuantificando el riesgo, la probabilidad de una iteración completada con éxito dado x número de puntos de historia)
Aprendizaje automático (por ejemplo, se han producido excepciones del sistema en un conjunto dado de módulos), ¿cuál es la probabilidad de que un módulo arroje una excepción en el campo, cuánto costará, qué pueden decirme los datos sobre los módulos clave para mejorar? Para mí, la mejor inversión para mi dinero, predice qué parte del sistema el usuario querrá usar a continuación para comenzar a cargar datos, etc.