¿Es la ciencia de datos lo mismo que la minería de datos?


22

Estoy seguro de que la ciencia de datos como se discutirá en este foro tiene varios sinónimos o al menos campos relacionados donde se analizan datos grandes.

Mi pregunta particular es con respecto a la minería de datos. Tomé una clase de posgrado en minería de datos hace unos años. ¿Cuáles son las diferencias entre la ciencia de datos y la minería de datos y, en particular, qué más debería tener en cuenta para llegar a ser competente en minería de datos?


En cuanto a la segunda parte de su pregunta, he propuesto una discusión en meta: meta.datascience.stackexchange.com/questions/5/… Cómo se recibe eso podría determinar si su inquietud de competencia es responsable o está dentro del alcance.
Clayton

Respuestas:


25

@statsRus comienza a sentar las bases para su respuesta en otra pregunta /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Recolección de datos : raspado web y encuestas en línea
  • Manipulación de datos : recodificar datos desordenados y extraer significado de datos lingüísticos y de redes sociales
  • Escala de datos : trabajar con conjuntos de datos extremadamente grandes
  • Minería de datos : búsqueda de patrones en conjuntos de datos grandes y complejos, con énfasis en técnicas algorítmicas
  • Comunicación de datos : ayuda a convertir los datos "legibles por máquina" en información "legible por humanos" a través de la visualización

Definición

puede verse como un elemento (o conjunto de habilidades y aplicaciones) en el conjunto de herramientas del científico de datos. Me gusta cómo separa la definición de minería de la colección en una especie de jerga específica del comercio.

Sin embargo, creo que la minería de datos sería sinónimo de recopilación de datos en una definición coloquial inglés-estadounidense.

En cuanto a dónde ir para llegar a ser competente? Creo que esa pregunta es demasiado amplia como se dice actualmente y recibiría respuestas que se basan principalmente en la opinión. Quizás si pudiera refinar su pregunta, sería más fácil ver lo que está preguntando.


11

Lo que @Clayton publicó parece correcto para mí, para esos términos, y para la "minería de datos" es una herramienta del científico de datos. Sin embargo, realmente no he usado el término "recopilación de datos", y no me parece sinónimo de "minería de datos".

Mi propia respuesta a tu pregunta: no , los términos no son los mismos. Las definiciones pueden estar flojas en este campo, pero no he visto esos términos usados ​​indistintamente. En mi trabajo, a veces los usamos para diferenciar entre objetivos o metodologías. Para nosotros, trata más de probar una hipótesis, y típicamente los datos se han recopilado solo para ese propósito. tiene más que ver con examinar los datos existentes, buscar estructura y quizás generar hipótesis. La minería de datos puede comenzar con una hipótesis, pero a menudo es muy débil o general, y puede ser difícil de resolver con confianza. (Excave lo suficiente y encontrará algo , aunque puede resultar pirita).

Sin embargo, también hemos utilizado "ciencia de datos" como un término más amplio, para incluir "minería de datos". También hablamos de "modelado de datos", que para nosotros consiste en encontrar un modelo para un sistema de interés, basado en datos, así como otros conocimientos y objetivos. A veces eso significa tratar de encontrar las matemáticas que explican el sistema real, y a veces significa encontrar un modelo predictivo que sea lo suficientemente bueno para un propósito.


8

Mi respuesta sería no. Considero que la minería de datos es uno de los campos diversos en la ciencia de datos. La minería de datos se considera principalmente para generar preguntas en lugar de responderlas. A menudo se denomina "detectar algo nuevo", en comparación con la ciencia de datos, donde el científico de datos intenta resolver problemas complejos para poder alcanzar sus resultados finales. Sin embargo, ambos términos tienen muchos puntos en común entre ellos. Por ejemplo ... si tiene una tierra agrícola donde desea encontrar las plantas afectadas ... Aquí la minería de datos espaciales juega un papel clave en este trabajo. Hay buenas posibilidades de que pueda terminar no solo descubriendo las plantas afectadas en la tierra, pero también en la medida en que se ven afectados ... esto es algo que no es posible con la ciencia de datos.


Su respuesta es muy buena, y también lo sería si agregara un pequeño ejemplo, para enfatizar su punto de que la minería de datos está más relacionada con la detección de algo nuevo en lugar de tratar de resolver y alcanzar resultados .
Rubens

6

Hay muchas superposiciones entre la minería de datos y la ciencia de datos. Diría que las personas con el rol de minería de datos se preocupan por la recopilación de datos y la extracción de características de conjuntos de datos no filtrados, no organizados y principalmente sin procesar / salvajes. Algunos datos muy importantes pueden ser difíciles de extraer, no a los problemas de implementación, sino porque pueden tener artefactos extraños.

P.ej. si necesitaba que alguien revise los datos financieros de las declaraciones de impuestos escritas en los años 70 que fueron escaneadas y leídas por máquinas para averiguar si las personas ahorraron más en seguros de automóviles; un minero de datos sería la persona que debería obtener.

Si necesitaba que alguien examinara la influencia del perfil de Twitter de Nike en los tweets de Brasil e identificara las características positivas clave del perfil, buscaría un científico de datos.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.