Ciencia de datos sin conocimiento de un tema específico, ¿vale la pena seguir como carrera? [cerrado]


15

Recientemente tuve una conversación con alguien y mencioné mi interés en el análisis de datos y a quién tenía la intención de aprender las habilidades y herramientas necesarias. Me sugirieron que si bien es genial aprender las herramientas y desarrollar las habilidades, no tiene mucho sentido hacerlo a menos que tenga un conocimiento especializado en un campo específico.

Básicamente, resumieron que sería como un constructor con una pila de herramientas que podría construir algunas cajas de madera y construir cosas mejores (cabañas, armarios, etc.), pero sin conocimiento en un campo específico, nunca ser un constructor que la gente vendría para un producto específico.

¿Alguien ha encontrado esto o tiene alguna opinión sobre qué hacer con esto? Parecería que si fuera cierto, uno tendría que aprender los aspectos de la ciencia de datos de las cosas y luego aprender un nuevo campo solo para especializarse.


Si bien su pregunta es válida, este no es el lugar adecuado para ello. Las preguntas relacionadas con la carrera se consideran fuera de tema aquí.
sheldonkreger

No está claro lo que está preguntando: ¿es mejor aprender herramientas o recopilar conocimientos de dominio? probablemente demasiado abierto y basado en opiniones para StackExchange.
Sean Owen

Respuestas:


43

Drew Conway publicó el Diagrama de Data Science Venn , con el que estoy totalmente de acuerdo:

Diagrama de Venn de ciencia de datos

Por un lado, realmente deberías leer su publicación. Por otro lado, puedo ofrecer mi propia experiencia: mi experiencia en el tema (que me gusta más como término que "Experiencia sustantiva", porque realmente también debería tener "Experiencia sustantiva" en matemáticas / estadísticas y piratería) está en negocio minorista, mis estadísticas / matemáticas son pronósticos y estadísticas inferenciales, y mis habilidades de piratería se encuentran en R.

Desde este punto de vista, puedo hablar y comprender a los minoristas, y alguien que no tenga al menos un conocimiento pasajero de este campo tendrá que enfrentar una curva de aprendizaje pronunciada en un proyecto con minoristas. Como concierto secundario, hago estadísticas en psicología, y es exactamente lo mismo allí. E incluso con bastante conocimiento de la parte de pirateo / matemáticas / estadísticas del diagrama, me sería difícil ponerme al día en, por ejemplo, la calificación crediticia o algún otro tema nuevo.

Una vez que tenga una cierta cantidad de matemáticas / estadísticas y habilidades de hacker, es mucho mejor adquirir una sólida base en una o más materias que en adición todavía otro lenguaje de programación a sus habilidades de hacker, o aúnotro algoritmo de aprendizaje automático para su cartera de matemáticas / estadísticas. Después de todo, una vez que tenga una sólida base de matemáticas / estadísticas / piratería, podría, si fuera necesario, aprender esas nuevas herramientas de la web o de los libros de texto en un período relativamente corto de tiempo. Pero la experiencia en el tema, por otro lado, es probable que no pueda aprender desde cero si comienza desde cero. Y los clientes prefieren trabajar con algún científico de datos A que comprenda su campo específico que con otro científico de datos B que primero necesita aprender los conceptos básicos, incluso si B es mejor en matemáticas / estadísticas / piratería.

Por supuesto, todo esto también significará que nunca se convertirá en un experto en ninguno de los tres campos. Pero está bien, porque usted es un científico de datos, no un programador o un estadístico o un experto en la materia. Siempre habrá personas en los tres círculos separados de las que puedes aprender. Lo cual es parte de lo que me gusta de la ciencia de datos.


EDITAR: Un poco y algunas reflexiones más tarde, me gustaría actualizar esta publicación con una nueva versión del diagrama. Sigo pensando que las Hacking Habilidades, el Conocimiento de Matemáticas y Estadísticas y la Experiencia Sustantiva (abreviado a "Programación", "Estadísticas" y "Negocios" para la legibilidad) son importantes ... pero creo que el papel de la Comunicación también es importante. Todas las ideas que obtenga al aprovechar su piratería, estadísticas y experiencia comercial no harán una pequeña diferencia a menos que pueda comunicarlas a personas que pueden no tener esa combinación única de conocimiento. Es posible que deba explicar sus conocimientos estadísticos a un gerente de negocios que necesita ser convencido para gastar dinero o cambiar procesos. O a un programador que no piensa estadísticamente.

Así que aquí está el nuevo diagrama de Venn de ciencia de datos, que también incluye la comunicación como un ingrediente indispensable. He etiquetado las áreas de manera que garanticen la máxima llama, a la vez que son fáciles de recordar.

Comenta lejos.

nuevo diagrama de Venn de ciencia de datos

Código R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
Fui traído aquí por una publicación de blog que hace referencia a su diagrama actualizado. Creo que esta es una gran mejora en la versión original de Conway, aunque no puedo superar la noción, implicada por el tamaño de la superposición, de que un profesor de estadística es alguien con las mismas habilidades en estadística y comunicación.
Robert de Graaf

1

Seguro que puede. Las empresas claman por científicos de datos. Sin embargo, tenga cuidado de que todos interpreten el término de manera diferente. Dependiendo de la compañía, es posible que se le pida que haga algo, desde estadísticas hasta escribir código de producción. Cualquiera de los dos es un trabajo de tiempo completo en sí mismo y hay que estar preparado para ambos, por lo que, en mi opinión, solicitar un conocimiento especializado profundo no es razonable, y las compañías con las que he hablado destacaron las otras dos áreas ( especialmente la programación). Sin embargo, descubrí que es útil estar familiarizado con los tipos de problemas que puede enfrentar. Dependiendo del sector, eso podría ser la detección de anomalías, recomendación / personalización, predicción, vinculación de registros, etc. Estas son cosas que puede aprender como ejemplos al mismo tiempo que las matemáticas y la programación.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.