De qué se trata
Solo conocer las técnicas es similar a conocer a los animales en un zoológico: puede nombrarlos, describir sus propiedades, tal vez identificarlos en la naturaleza.
Entender cuándo usarlos, formular, construir, probar y desplegar modelos matemáticos en funcionamiento dentro de un área de aplicación, evitando las trampas, estas son las habilidades que distinguen, en mi opinión.
El énfasis debe estar en la ciencia , aplicando un enfoque científico sistemático a los problemas comerciales, industriales y comerciales. Pero esto requiere habilidades más amplias que la minería de datos y el aprendizaje automático, como Robin Bloor argumenta persuasivamente en "A Data Science Rant" .
Entonces, ¿qué se puede hacer?
Áreas de aplicación : conozca varias áreas de aplicación cercanas a su interés o el de su empleador. El área a menudo es menos importante que comprender cómo se construyó el modelo y cómo se usó para agregar valor a esa área. Los modelos que tienen éxito en un área a menudo se pueden trasplantar y aplicar a diferentes áreas que funcionan de manera similar.
Competiciones : pruebe el sitio de competencia de minería de datos Kaggle , preferiblemente uniéndose a un equipo de otros. (Kaggle: una plataforma para competencias de modelado predictivo. Empresas, gobiernos e investigadores presentan conjuntos de datos y problemas y los mejores científicos de datos del mundo compiten para producir las mejores soluciones).
Fundamentos : Hay cuatro: (1) una base sólida en estadística, (2) habilidades de programación razonablemente buenas, (3) comprender cómo estructurar consultas de datos complejas, (4) construir modelos de datos. Si alguno es débil, entonces ese es un lugar importante para comenzar.
Algunas citas a este respecto:
`` Aprendí muy temprano la diferencia entre saber el nombre de algo y saber algo. Puedes saber el nombre de un pájaro en todos los idiomas del mundo, pero cuando hayas terminado, no sabrás absolutamente nada sobre el pájaro ... Así que veamos el pájaro y veamos qué está haciendo, eso es lo que cuenta '' - Richard Feynman, "The Making of a Scientist", p14 en What do you care what what people people think, 1988
Tenga en cuenta:
`` La combinación de habilidades necesarias para llevar a cabo estos proyectos de ciencia empresarial [ciencia de datos] rara vez reside en una persona. De hecho, alguien podría haber obtenido un amplio conocimiento en las áreas triples de (i) lo que hace el negocio, (ii) cómo usar las estadísticas y (iii) cómo administrar los datos y los flujos de datos. Si es así, él o ella podría afirmar ser un científico de negocios (también conocido como "científico de datos") en un sector determinado. Pero esos individuos son casi tan raros como los dientes de gallina '' - Robin Bloor, A Data Science Rant , agosto de 2013, Inside Analysis
Y finalmente:
`` El mapa no es el territorio '' - Alfred Korzybski, 1933, Science & Sanity.
La mayoría de los problemas reales aplicados no son accesibles únicamente desde `` el mapa ''. Para hacer cosas prácticas con el modelado matemático, uno debe estar dispuesto a ensuciarse con detalles, sutilezas y excepciones. Nada puede sustituir el conocimiento del territorio de primera mano.