¿Necesito aprender Hadoop para ser un científico de datos?


38

Un aspirante a científico de datos aquí. No sé nada sobre Hadoop, pero como he estado leyendo sobre Data Science y Big Data, veo muchas conversaciones sobre Hadoop. ¿Es absolutamente necesario aprender Hadoop para ser un científico de datos?


1
Esta clase de preguntas se está discutiendo en meta. Puedes expresar tu opinión sobre esta meta publicación.
asheeshr

No es absolutamente necesario. Es solo una de las herramientas. Lo que es necesario es comprender las estadísticas y el álgebra lineal. La elección de la herramienta es secundaria.
Victor

Mire este libro electrónico gratuito y trata de responder su pregunta. oreilly.com/data/free/files/analyzing-the-analyzers.pdf
Espanta

Tengo una pregunta similar sobre IBM Watson Analytics, Bigquery de Google y otros análisis basados ​​en la nube. Estas tecnologías son mejores que Hadoop y spark ... Acabo de empezar a aprender Hadoop y spark y realmente necesito aprender Hadoop y spark para hacer análisis de big data

Respuestas:


47

Diferentes personas usan diferentes herramientas para diferentes cosas. Términos como Data Science son genéricos por una razón. Un científico de datos podría pasar toda una carrera sin tener que aprender una herramienta en particular como hadoop. Hadoop se usa ampliamente, pero no es la única plataforma capaz de administrar y manipular datos, incluso datos a gran escala.

Yo diría que un científico de datos debería estar familiarizado con conceptos como MapReduce, sistemas distribuidos, sistemas de archivos distribuidos y similares, pero no juzgaría a alguien por no saber sobre tales cosas.

Es un gran campo. Hay un mar de conocimientos y la mayoría de las personas son capaces de aprender y ser expertos en una sola gota. La clave para ser científico es tener el deseo de aprender y la motivación para saber lo que aún no sabes.

Como ejemplo: podría entregarle a la persona adecuada cien archivos CSV estructurados que contienen información sobre el rendimiento del aula en una clase en particular durante una década. Un científico de datos podría pasar un año obteniendo información de los datos sin tener que extender la computación a través de múltiples máquinas. Podría aplicar algoritmos de aprendizaje automático, analizarlos mediante visualizaciones, combinarlos con datos externos sobre la región, composición étnica, cambios en el entorno a lo largo del tiempo, información política, patrones climáticos, etc. En mi opinión, todo eso sería "ciencia de datos". . Puede tomar algo como hadoop probar y aplicar todo lo que aprendió a los datos que comprenden un país entero de estudiantes en lugar de solo un aula, pero ese paso final no necesariamente convierte a alguien en un científico de datos.


10

Como ex ingeniero de Hadoop, no es necesario pero ayuda. Hadoop es solo un sistema: el sistema más común, basado en Java, y un ecosistema de productos, que aplica una técnica particular "Map / Reduce" para obtener resultados de manera oportuna. Hadoop no se usa en Google, aunque le aseguro que usan análisis de big data. Google usa sus propios sistemas, desarrollados en C ++. De hecho, Hadoop se creó como resultado de la publicación de Google de sus libros blancos Map / Reduce y BigTable (HBase en Hadoop).

Los científicos de datos interactuarán con los ingenieros de hadoop, aunque en lugares más pequeños es posible que deba usar ambos sombreros. Si es estrictamente un científico de datos, lo que utilice para sus análisis, R, Excel, Tableau, etc., operará solo en un pequeño subconjunto, luego deberá convertirse para ejecutarse contra el conjunto de datos completo que involucra hadoop.


8

Primero debes dejar en claro qué quieres decir con "aprender Hadoop". Si te refieres a usar Hadoop, como aprender a programar en MapReduce, entonces probablemente sea una buena idea. Pero el conocimiento fundamental (base de datos, aprendizaje automático, estadísticas) puede desempeñar un papel más importante a medida que pasa el tiempo.


Aparentemente, la mayoría de las personas están usando Hadoop para análisis. Lo que estoy pensando es ¿necesito algo así o conocimiento sobre bases de datos, ML, estadísticas es suficiente?
Pensu

5

Sí, debe aprender una plataforma que sea capaz de analizar su problema como un problema paralelo de datos. Hadoop es uno. Para sus necesidades simples (patrones de diseño como conteo, agregación, filtrado, etc.) necesita Hadoop y para cosas más complejas de Machine Learning, como hacer algo de Bayesian, SVM, necesita Mahout, que a su vez necesita Hadoop (ahora Apache Spark) para resolver su problema usando Un enfoque de datos paralelos.

Por lo tanto, Hadoop es una buena plataforma para aprender y realmente importante para sus necesidades de procesamiento por lotes. No solo Hadoop, sino que también necesita saber Spark (Mahout ejecuta sus algoritmos utilizando Spark) y Twitter Storm (para sus necesidades de análisis en tiempo real). Esta lista continuará y evolucionará, por lo que si eres bueno con los componentes básicos (Computación distribuida, Problemas paralelos de datos, etc.) y sabes cómo funciona una de esas plataformas (por ejemplo, Hadoop), estarás al día rápidamente sobre otras.


4

Depende en gran medida del entorno / empresa con la que esté trabajando. En mi opinión, hay una exageración de "big data" en este momento y muchas empresas intentan ingresar al campo con soluciones basadas en hadoop, lo que hace que hadoop también sea una palabra de moda, pero no siempre es la mejor solución.

En mi opinión, un buen científico de datos debería ser capaz de hacer las preguntas correctas y seguir preguntando nuevamente hasta que quede claro lo que realmente se necesita. Que un buen DataScientist, por supuesto, necesita saber cómo abordar el problema (o al menos conocer a alguien que pueda). De lo contrario, su parte interesada podría sentirse frustrada :-)

Entonces, diría que no es absolutamente necesario aprender Hadoop.



2

Puede aplicar técnicas de ciencia de datos a los datos en una máquina, por lo que la respuesta a la pregunta como lo expresó el OP, es no.


1

Data Science es un campo que exige una variedad de habilidades. Tener conocimiento de Hadoop es uno de ellos. Las tareas principales de un científico de datos incluyen:

  1. Recopilación de datos de diferentes recursos.
  2. Limpieza y preprocesamiento de los datos.
  3. Estudio de propiedades estadísticas de los datos.
  4. Uso de técnicas de aprendizaje automático para hacer pronósticos y obtener información de los datos.
  5. Comunicar los resultados a los tomadores de decisiones de una manera fácil de entender.

Fuera de los puntos anteriores, el conocimiento de Hadoop es útil para los puntos 1, 2 y 3, pero también debe tener una sólida base matemática / estadística y un fuerte conocimiento de las técnicas computacionales para trabajar en el campo de la ciencia de datos. Además, Hadoop no es el único marco que se utiliza en Data Science. El ecosistema de Big Data tiene una variedad de marcos, cada uno específico para un caso de uso particular. Este artículo ofrece material introductorio sobre los principales marcos de Big Data que podrían usarse en Data Science:

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/


1

Creo que el marco Leaning Hadoop (de manera difícil) no es un requisito para ser un Data Scientist. El conocimiento general en todas las plataformas de big data es esencial. Sugeriré conocer el concepto y solo una parte de la necesidad de Hadoop es MapReduce http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

Un científico de datos no construye clúster, administra ... solo hace "magia" con datos y no le importa de dónde viene. El término "Hadoop" se ha referido no solo a los módulos básicos anteriores, sino también al "ecosistema", o la colección de paquetes de software adicionales que se pueden instalar encima o junto a Hadoop, como Apache Pig, Apache Hive, Apache HBase, Apache Spark y otros.

Lo más importante es el lenguaje de programación, las matemáticas y las estadísticas para trabajar con datos (necesitará encontrar una manera de conectarse con los datos y avanzar). Desearía tener a alguien que me señale el concepto y no pase semanas aprendiendo framework y construyendo desde cero nodos y clusters, porque esa parte es el rol de Administrador y no el Ingeniero de Datos o el Científico de Datos. También una cosa: todos están cambiando y evolucionando, pero las matemáticas, la programación y las estadísticas siguen siendo los requisitos.

es esencial acceder a los datos de los hdfs, por ejemplo PROC Hadoop, Hive, SparkContext o cualquier otro controlador o tubería (trate el hadoop como un punto de acceso a datos o almacenamiento :)

Ya existen herramientas o marcos que se encargan de la asignación y gestión de recursos, el rendimiento.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.