Drew Conway publicó el Diagrama de Data Science Venn , con el que estoy totalmente de acuerdo:
Por un lado, realmente deberías leer su publicación. Por otro lado, puedo ofrecer mi propia experiencia: mi experiencia en el tema (que me gusta más como término que "Experiencia sustantiva", porque realmente también debería tener "Experiencia sustantiva" en matemáticas / estadísticas y piratería) está en negocio minorista, mis estadísticas / matemáticas son pronósticos y estadísticas inferenciales, y mis habilidades de piratería se encuentran en R.
Desde este punto de vista, puedo hablar y comprender a los minoristas, y alguien que no tenga al menos un conocimiento pasajero de este campo tendrá que enfrentar una curva de aprendizaje pronunciada en un proyecto con minoristas. Como concierto secundario, hago estadísticas en psicología, y es exactamente lo mismo allí. E incluso con bastante conocimiento de la parte de pirateo / matemáticas / estadísticas del diagrama, me sería difícil ponerme al día en, por ejemplo, la calificación crediticia o algún otro tema nuevo.
Una vez que tenga una cierta cantidad de matemáticas / estadísticas y habilidades de hacker, es mucho mejor adquirir una sólida base en una o más materias que en adición todavía otro lenguaje de programación a sus habilidades de hacker, o aúnotro algoritmo de aprendizaje automático para su cartera de matemáticas / estadísticas. Después de todo, una vez que tenga una sólida base de matemáticas / estadísticas / piratería, podría, si fuera necesario, aprender esas nuevas herramientas de la web o de los libros de texto en un período relativamente corto de tiempo. Pero la experiencia en el tema, por otro lado, es probable que no pueda aprender desde cero si comienza desde cero. Y los clientes prefieren trabajar con algún científico de datos A que comprenda su campo específico que con otro científico de datos B que primero necesita aprender los conceptos básicos, incluso si B es mejor en matemáticas / estadísticas / piratería.
Por supuesto, todo esto también significará que nunca se convertirá en un experto en ninguno de los tres campos. Pero está bien, porque usted es un científico de datos, no un programador o un estadístico o un experto en la materia. Siempre habrá personas en los tres círculos separados de las que puedes aprender. Lo cual es parte de lo que me gusta de la ciencia de datos.
EDITAR: Un poco y algunas reflexiones más tarde, me gustaría actualizar esta publicación con una nueva versión del diagrama. Sigo pensando que las Hacking Habilidades, el Conocimiento de Matemáticas y Estadísticas y la Experiencia Sustantiva (abreviado a "Programación", "Estadísticas" y "Negocios" para la legibilidad) son importantes ... pero creo que el papel de la Comunicación también es importante. Todas las ideas que obtenga al aprovechar su piratería, estadísticas y experiencia comercial no harán una pequeña diferencia a menos que pueda comunicarlas a personas que pueden no tener esa combinación única de conocimiento. Es posible que deba explicar sus conocimientos estadísticos a un gerente de negocios que necesita ser convencido para gastar dinero o cambiar procesos. O a un programador que no piensa estadísticamente.
Así que aquí está el nuevo diagrama de Venn de ciencia de datos, que también incluye la comunicación como un ingrediente indispensable. He etiquetado las áreas de manera que garanticen la máxima llama, a la vez que son fáciles de recordar.
Comenta lejos.
Código R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()