¿Los científicos de datos usan Excel?


37

Me consideraría un científico de datos oficial. Como la mayoría (creo), hice mis primeros cuadros e hice mis primeras agregaciones en la escuela secundaria y la universidad, usando Excel. A medida que cursé la universidad, la escuela de posgrado y ~ 7 años de experiencia laboral, rápidamente aprendí lo que considero herramientas más avanzadas, como SQL, R, Python, Hadoop, LaTeX, etc.

Estamos entrevistando para un puesto de científico de datos y un candidato se anuncia a sí mismo como un "científico de datos sénior" (un término muy actual en estos días) con más de 15 años de experiencia. Cuando se le preguntó cuál era su conjunto de herramientas preferido, respondió que era Excel.

Tomé esto como evidencia de que no tenía tanta experiencia como su currículum afirmaría, pero no estaba seguro. Después de todo, solo porque no es mi herramienta preferida, no significa que no sea de otras personas. ¿Los científicos de datos experimentados usan Excel? ¿Se puede asumir la falta de experiencia de alguien que utiliza principalmente Excel?


La mayoría de los anuncios de trabajo de ciencia de datos requieren habilidades específicas, como R, Hadoop, lo que sea. ¿Olvidaste mencionar esto en tu anuncio? A menos que su nuevo Data Scientist vaya a trabajar en una burbuja, entonces tendrá que trabajar con el equipo y probablemente necesite trabajar con el software estándar del equipo ...
Spacedman

1
bueno, si no lo usan \LaTeX{}, no los contrataría. solo es broma ...
aeroNotAuto

1
@Spacedman: proporcioné la historia para un contexto anecdótico, pero estoy realmente más interesado en las opiniones de las personas sobre Excel que en los consejos de contratación. Nuestro equipo es libre de usar las herramientas que nos gusten.
JHowIX

1
Sí, mira aquí . Para la broma deteriorada, ver aquí también .
Dirk Eddelbuettel

1
Independientemente de los años especificados, esperaría una lista Pro / Con de al menos tres herramientas de un científico de datos. Deben mostrar capacidad para investigar, evaluar opciones y comunicar resoluciones. Incluso, o especialmente, en una entrevista, esperaría ver un compromiso real y una capacidad para expandir más allá de una pregunta de entrevista potencialmente excelente, pero que actualmente carece.
Dave

Respuestas:


28

La mayoría de las personas no técnicas a menudo usan Excel como reemplazo de la base de datos. Creo que eso está mal pero es tolerable. Sin embargo, alguien que supuestamente tiene experiencia en análisis de datos simplemente no puede usar Excel como su herramienta principal (excluyendo la tarea obvia de mirar los datos por primera vez). Esto se debe a que Excel nunca fue pensado para ese tipo de análisis y, como consecuencia de esto, es increíblemente fácil cometer errores en Excel (eso no quiere decir que no sea increíblemente fácil cometer otro tipo de errores al usar otras herramientas, pero Excel agrava la situación aún más).

Para resumir lo que Excel no tiene y es imprescindible para cualquier análisis:

  1. Reproducibilidad Un análisis de datos debe ser reproducible.
  2. Control de versiones. Bueno para la colaboración y también bueno para la reproducibilidad. En lugar de usar xls, use csv (aún es muy complejo y tiene muchos casos extremos, pero los analizadores csv son bastante buenos hoy en día).
  3. Pruebas. Si no tiene pruebas, su código está roto. Si su código está roto, su análisis es peor que inútil.
  4. Mantenibilidad
  5. Exactitud. La precisión numérica, el análisis preciso de la fecha, entre otros, realmente faltan en Excel.

Más recursos:

Grupo de interés sobre riesgos de la hoja de cálculo europea - Historias de terror

No deberías usar una hoja de cálculo para un trabajo importante (lo digo en serio)

Excel de Microsoft podría ser el software más peligroso del planeta

¡Destruya sus datos usando Excel con este truco extraño!

Las hojas de cálculo de Excel son difíciles de acertar


Para ver los datos y analizarlos rápidamente, ¿hay herramientas ampliamente aceptadas por los profesionales como comparables pero mejores que Excel? Soy un científico de datos novato, y he estado usando SQL (Postgre) principalmente, pero algo como Excel puede ser más rápido para trabajar si solo estás probando cosas.
sudo

1
Además, tengo que quejarme de que CSV no es un estándar. Realmente tienes que asegurarte de que lo que sea que esté abriendo esté de acuerdo con lo que sea que lo haya producido. OpenOffice lo hace bien y le permite elegir muchas opciones de CSV cuando carga en lugar de asumir nada sobre el formato.
sudo

@sudo Las herramientas dependen del lenguaje de programación que elija, que es principalmente una preferencia personal. Solo para dar algunos ejemplos, R ha sido históricamente una buena opción, Python ha crecido en popularidad para el análisis de datos en los últimos años, Julia es una recién llegada muy prometedora en el campo. La mayoría de los lenguajes de programación proporcionan bibliotecas maduras que le brindan estructuras (por ejemplo, marcos de datos) especialmente adecuadas para el análisis de datos y todas ellas son mejores que Excel. CSV se ha estandarizado, pero hay detalles que se implementan de manera diferente, pero eso no debería ser un gran problema en su trabajo diario.
Robert Smith

Yo uso Python para el procesamiento ligero, pero en realidad no sirve para los propósitos de Excel. Por ejemplo, en Excel, puede usar herramientas como autofiltro y gráficos interactivos. Por lo general, envío mis datos a un CSV para que mis superiores vean en Excel o algo así.
sudo

@sudo Entonces quieres pandas. Pandas proporciona muchos métodos para manipular sus datos. Eso incluye subconjuntos basados ​​en índices, columnas o condiciones, que es mucho más flexible y potente que el autofiltro. Luego puede trazar el resultado ( df.plot()) y exportar su salida a csv ( df.to_csv('output.csv')). Tenga en cuenta que los análisis de datos generalmente requieren mucho más que filtrar y trazar. Por lo tanto, el enfoque debe estar en la corrección, por lo que debe desacoplar la presentación del análisis. Realice su análisis en Python (u otro lenguaje), comparta su salida en csv si eso es lo que desea.
Robert Smith

15

¿Los científicos de datos experimentados usan Excel?

He visto algunos científicos de datos experimentados, que usan Excel, ya sea por su preferencia o por los detalles del entorno de negocios y TI de su lugar de trabajo (por ejemplo, muchas instituciones financieras usan Excel como su herramienta principal, al menos, para modelar). Sin embargo, creo que los científicos de datos más experimentados reconocen la necesidad de usar herramientas, que son óptimas para tareas particulares, y se adhieren a este enfoque.

¿Se puede asumir la falta de experiencia de alguien que utiliza principalmente Excel?

No, no puedes. Este es el corolario de mis pensamientos mencionados anteriormente. La ciencia de datos no implica automáticamente grandes datos: hay mucho trabajo de ciencia de datos que Excel puede manejar bastante bien. Dicho esto, si un científico de datos (incluso uno experimentado) no tiene conocimiento (al menos, básico) de las herramientas modernas de ciencia de datos, incluidas las grandes centradas en datos, es algo inquietante. Esto se debe a que la experimentación está profundamente arraigada en la naturaleza de la ciencia de datos debido a que el análisis exploratorio de datos es una parte esencial e, incluso, crucial. Por lo tanto, una persona que no tiene ganas de explorar otras herramientas dentro de su dominio, podría clasificarse más bajo entre los candidatos en el ajuste general para un puesto de ciencia de datos (por supuesto, esto es bastante confuso, ya que algunas personas aprenden muy rápido) nuevo material, además,

Por lo tanto, en conclusión, creo que la mejor respuesta que un científico de datos experimentado podría tener a una pregunta con respecto a su herramienta preferida es la siguiente: Mi herramienta preferida es la óptima, es la que mejor se adapta a la tarea en cuestión.


55
Nunca culparía a alguien por no conocer Hadoop, pero incluso en situaciones de datos pequeños siento que R es superior. Simplemente hay una miríada de cosas que puedes hacer con R que no puedes hacer con Excel. Me preocupa que este individuo no haya "descubierto" que en sus más de 15 años
JHowIX

@JHowIX: ¿Está familiarizado con el término "suficientemente bueno"? También soy un gran admirador de R y lo preferiría a muchas herramientas, Excel incluido, cualquier día. Sin embargo, el hecho de que R pueda hacer más no implica que Excel (o cualquier otra herramienta adecuada para una tarea) sea inferior en un contexto de trabajo particular. Entonces, si bien su preocupación es válida (me refiero a eso usando la palabra "perturbador"), puede ser que la persona no haya tenido la oportunidad / necesidad de hacerlo. Recuerde que está hablando del tiempo, cuando R existía, pero era popular principalmente en la academia y la ciencia de datos (denominada análisis de datos o tal) no era tan popular como hoy.
Aleksandr Blekh

13

Creo que la mayoría de la gente responde sin tener un buen conocimiento de Excel. Excel (desde 2010) tiene una base de datos columnar en la memoria [tabla múltiple], llamada power pivot (que permite la entrada de csv / bases de datos, etc.), lo que le permite almacenar millones de filas (no tiene que cargarse en una hoja de cálculo) . También tiene una herramienta ETL llamada consulta de potencia que le permite leer los datos de una variedad de fuentes (incluido hadoop). Y tiene una herramienta de visualización (vista de poder y mapa de poder). Una gran cantidad de Data Science está haciendo un análisis de agregación y top-n en el que destaca el pivote de potencia. Agregue a esto la naturaleza interactiva de estas herramientas: cualquier usuario puede arrastrar y soltar fácilmente una dimensión para dividir los resultados y espero que pueda ver los beneficios. Entonces sí, no puedes hacer aprendizaje automático,


Interesante. Estoy acostumbrado a las cosas lentas y con errores que es Excel 1998-2008. Tengo que probar los más nuevos.
sudo

Desearía poder respaldar la respuesta de seanv507 un millón de veces. La mayoría de las respuestas aquí muestran que muchas personas no son conscientes de cuán poderosas son las versiones más recientes de Excel. Y tenga en cuenta que cuando usa las nuevas herramientas de análisis de datos (por ejemplo, Power query, power pivot, DAX) ya no está limitado a 1, 048, 576 filas de datos y una serie de otras limitaciones sin estas herramientas
maze55555

Las personas sin experiencia en negocios no usan Excel. Período. Y teniendo en cuenta que los graduados de negocios no suelen dedicarse a la ciencia de datos, se puede entender la ignorancia.
NoName

5

En su libro Data Smart, John Foreman resuelve problemas comunes de ciencia de datos (agrupación, ingenuos bayes, métodos de conjunto, ...) usando Excel. De hecho, siempre es bueno tener algún conocimiento de Python o R, pero supongo que Excel aún puede hacer la mayor parte del trabajo.


2
En realidad, me sorprendí bastante cuando leí el libro que podías hacer mucho con Excel. ¡Y que tenía solucionadores evolutivos y otros no lineales integrados! Una buena ventaja de Excel es que su trabajo, especialmente si le gusta el código reproducible, es accesible para más personas que el código R o Python.
Victor Ma

5

Me sorprende cuánta gente está apegada a la frescura de la profesión en lugar del trabajo real a realizar. Excel es una herramienta excelente, con Powerpivot gratuito, Powerquery, puede hacer mucho. (estos no están disponibles en OS X). Y si conoce VBA, puede hacer algunas cosas buenas. Y luego, si agrega la parte superior de ese conocimiento de Python, puede combinar los primeros pasos de extracción y manipulación de datos con Python y luego usar Excel, especialmente si es una persona visual. Con Excel, realmente puede inspeccionar los datos agregados antes de alimentar cualquier otro proceso o visualización. Es una herramienta imprescindible.


4

Excel solo permite datos muy pequeños y no tiene nada que sea lo suficientemente útil y flexible para el aprendizaje automático o incluso para trazar. Todo lo que haría en Excel es mirar un subconjunto de datos para echar un primer vistazo a los valores y asegurarme de que no pierda nada visible a simple vista.

Entonces, si su herramienta favorita es Excel, esto podría sugerir que rara vez se ocupa del aprendizaje automático, las estadísticas, los tamaños de datos más grandes o cualquier trazado avanzado. Alguien así no llamaría a un científico de datos. Por supuesto, los títulos no importan y depende mucho de sus requisitos.

En cualquier caso, no juzgue por declaraciones de experiencia o CV. He visto currículums y he conocido a las personas que están detrás.

No asumas Ponlo a prueba! Debes ser lo suficientemente bueno como para configurar una prueba. Se ha demostrado que las entrevistas solas son casi inútiles para determinar habilidades (solo muestran personalidad). Configure una prueba de aprendizaje supervisado muy simple y permítale usar cualquier herramienta que desee.

Y si primero desea evaluar a las personas en una entrevista, pregúntele sobre ideas muy básicas pero importantes sobre estadísticas o aprendizaje automático. Algo que todos sus empleados actuales saben.


2

Permítanme aclarar primero que estoy comenzando mi viaje hacia la ciencia de datos desde un punto de vista de programador y desarrollador de bases de datos. No soy un experto en ciencias de datos de 10 años ni un dios de la estadística. Sin embargo, sí trabajo como científico de datos y grandes conjuntos de datos para una empresa que trabaja con clientes bastante grandes en todo el mundo.

Desde mi experiencia, el científico de datos utiliza cualquier herramienta que necesite para hacer el trabajo.Excel, R, SAS, Python y más son todas herramientas en una caja de herramientas para un buen científico de datos. Los mejores pueden usar una amplia variedad de herramientas para analizar y procesar datos.

Por lo tanto, si te encuentras comparando R con Python, es probable que lo estés haciendo todo mal en el mundo de la ciencia de datos.Un buen científico de datos usa ambos cuando tiene sentido usar uno sobre el otro. Esto también se aplica a Excel.

Creo que es bastante difícil encontrar a alguien que tenga experiencia en tantas herramientas e idiomas diferentes, a la vez que ha sido excelente en todo. También creo que será difícil encontrar científicos de datos específicamente que no solo puedan programar algoritmos complejos sino que también sepan cómo usarlos desde un punto de vista estadístico.

La mayoría de los científicos de datos con los que he trabajado vienen en aproximadamente 2 sabores. Los que pueden programar y los que no pueden. Raramente trabajo con un científico de datos que pueda extraer datos en Python, manipularlos con algo como Pandas, ajustar un modelo a los datos en R y luego presentarlos a la gerencia al final de la semana.

Quiero decir, sé que existen. He leído muchos blogs de ciencia de datos de personas que desarrollan scrappers web, lo introducen en Hadoop, lo extraen en Python, programan cosas complejas y lo ejecutan a través de R para arrancar. Ellos existen. Están afuera Simplemente no me he encontrado con muchos que puedan hacer todo eso. ¿Quizás es solo mi área?

Entonces, ¿eso significa solo especializarse en una cosa mala? No. Muchos de mis amigos se especializan en un solo idioma principal y lo matan. Conozco muchos tipos de datos que solo conocen R y lo matan. También conozco a muchas personas que solo usan Excel para analizar datos porque eso es lo único que la mayoría de los científicos que no son de datos pueden abrir y usar (especialmente en empresas B2B). La pregunta que realmente necesita responder es si esta es la ÚNICA cosa que necesita para este puesto. Y lo más importante, ¿pueden aprender cosas nuevas?

PD

Data Science no se limita solo a "BIG DATA" o NoSQL.


Hola Glen, gracias por tus comentarios. Echa un vistazo al siguiente enlace. Es de Swami Chandrasekaran, quien dirigió el equipo de Watson en IBM, por lo que, en mi opinión, es un científico de datos bastante experimentado. Él tiene la programación como básicamente la tercera cosa que un científico de datos necesita saber, detrás de "Fundamentos" y Estadísticas. Según su hoja de ruta, una vez que sabe cómo programar, tiene el 15% del camino para ser un científico de datos. En base a esto, podría estar un poco en desacuerdo con la afirmación de que los verdaderos científicos de datos tienen un sabor "no programable". nirvacana.com/thoughts/becoming-a-data-scientist
JHowIX

Bueno, solo digo eso basado en la experiencia. La mayoría de los cursos de estadística y ciencia de datos incluso no cubren la programación fuera de lo que necesita para los programas estadísticos populares. Debido a eso, la mayoría de los tipos con los que me encuentro en el mundo de las estadísticas no son buenos para programar. Es como una idea de último momento cuando entran en el mundo real y se dan cuenta de que ayuda.
Glen Swan

1

Excel puede ser una excelente herramienta para el análisis exploratorio de datos, realmente depende de sus necesidades y, por supuesto, tiene sus limitaciones como cualquier herramienta, pero Excel definitivamente merece un lugar en el salón de la fama de la ciencia de datos.

Vale la pena recordar que, en la práctica, la mayoría de los usuarios explorarán un conjunto de datos muy reducido de todos modos (creado a partir de una consulta SQL).

Excel es poderoso para explorar datos cuando usa el objeto "tabla" en combinación con tablas dinámicas, la visualización es de 1 a 2 clics como máximo y muchos gráficos Excel en PowerPoint se ven geniales, a menos que esté buscando crear algo muy personalizado, por ejemplo, en un Contexto científico informático. La naturaleza interactiva significa que puede explorar rápidamente.

Los beneficios del objeto "tabla" es que a medida que transforma los datos aún más en Excel para permitirle explorar nuevas distribuciones, todas las tablas dinámicas recuerdan la variable.

Donde Excel es débil es que la lista de fórmulas es posiblemente limitante, por ejemplo, una declaración de caso SQL o una declaración de Python es mucho más flexible que una cadena interminable de funciones if.

Realmente depende de sus necesidades, pero Excel definitivamente merece un lugar en el salón de la fama de la ciencia de datos.

Una anécdota interesante: se puede ver que el equipo que trabaja en el algoritmo de suministro de noticias de Facebook juega regularmente con Excel y muchas hojas de cálculo.


0

Enseño un curso de Business Analytics que incluye SQL y Excel. Enseño en una escuela de negocios, por lo que mis alumnos no son los más técnicamente capaces, por eso no utilicé algo como R, Pandas o Weka. Dicho esto, Excel es una herramienta lo suficientemente potente como para usar para algunos análisis de datos. Obtiene la mayor parte de este poder de su capacidad para actuar como un front-end para SQL Server Analysis Services (un componente en SQL Server para el análisis de datos) utilizando el complemento de minería de datos.

SSAS le permite construir árboles de decisión, realizar regresiones lineales y logísticas e incluso crear redes bayesianas o neuronales. Descubrí que usar Excel como front-end es un enfoque menos amenazante para hacer este tipo de análisis, ya que todos han usado Excel antes. La forma de usar SSAS sin Excel es a través de una versión especializada de Visual Studio y esa no es la herramienta más fácil de usar que existe. Cuando lo combina con algunas otras herramientas de Excel como Power Query y Power Pivot, puede hacer un análisis de datos bastante sofisticado.

Divulgación completa, probablemente no la volveré a usar cuando enseñe la nueva versión del curso el próximo año (la dividiremos en dos cursos para que uno pueda centrarse más en el análisis de datos). Pero eso es solo porque la universidad pudo obtener suficientes licencias para Alteryx, que es aún más fácil de usar y más potente, pero cuesta $ 4-85k / usuario / año si no puede obtenerlo de alguna manera. Di lo que quieras sobre Excel, pero supera ese punto de precio.


0

Excel puede ser una excelente herramienta. Claro, dependiendo de lo que haga, puede que no se ajuste a la factura, pero si lo hace, sería casi una tontería descartarlo. Si bien toma un tiempo configurar su canalización, en Excel puede comenzar a ejecutar: interfaz de usuario incorporada, fácil extensión a través de VBA incluso con Python (por ejemplo, https://www.xlwings.org ). Puede que no sea ideal cuando se trata de cosas como el control de versiones, pero hay formas de hacerlo funcionar con Git (por ejemplo, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).


-2

¿Este individuo trabaja con 'Big Data' y usa principalmente Excel? ¡¿¡¿Seriamente?!?! Excel solo maneja hasta 1, 048, 576 filas de datos en una sola hoja de cálculo. Para conjuntos de datos más allá de eso, necesita un complemento. También las tablas dinámicas en Excel tienen restricciones severas en el análisis que se puede realizar al usarlas.

¿Qué tipos de tareas de análisis de datos deberían realizarse en el trabajo para el que está reclutando?

Le sugiero que realice entrevistas que incluyan pruebas del tipo de tareas que deberán realizarse en el trabajo considerado. Sin violar la confidencialidad, la privacidad o la protección de datos, la tarea de programación o análisis de datos establecida como parte de la entrevista debe incluir un subconjunto (seudónimo) de un conjunto de datos relevante para la publicación que se está entrevistando. De lo contrario, podría terminar reclutando a alguien que se articule en una entrevista basada en una conversación pero que en realidad no sea competente para llevar a cabo el trabajo real.


Nadie dijo 'big data'. Dijeron 'científico de datos'. No todos los datos son 'big data'. He trabajado con científicos de datos experimentados que utilizaron todo R, Python, SQL y Excel en un proyecto. No todos los análisis de datos son programáticos o con guiones. Como se dijo en otra parte, especificaciones de trabajo vagas => diferentes tipos de científicos de datos.
smci
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.