Por lo general, hago mis propias elecciones idiosincrásicas cuando preparo trazados. Sin embargo, me pregunto si hay mejores prácticas para generar tramas.
Nota: El comentario de Rob a una respuesta a esta pregunta es muy relevante aquí.
Por lo general, hago mis propias elecciones idiosincrásicas cuando preparo trazados. Sin embargo, me pregunto si hay mejores prácticas para generar tramas.
Nota: El comentario de Rob a una respuesta a esta pregunta es muy relevante aquí.
Respuestas:
Los principios de Tufte son muy buenas prácticas al preparar parcelas. Ver también su libro Beautiful Evidence
Los principios incluyen:
El término a buscar es Visualización de información
SO
: stackoverflow.com/questions/6973394/…
Podríamos quedarnos aquí todo el día para denotar las mejores prácticas, pero debes comenzar leyendo Tufte. Mi recomendación principal:
Mantenlo simple.
A menudo las personas intentan cargar sus gráficos con información. Pero realmente debería tener una idea principal que está tratando de transmitir y si alguien no recibe su mensaje casi de inmediato, debe repensar cómo lo ha presentado. Por lo tanto, no comience a trabajar en su gráfico hasta que el mensaje en sí sea claro. La navaja de Occam también se aplica aquí.
Una regla general que no siempre sigo pero que en ocasiones es útil es tener en cuenta que es probable que su trama en algún momento en el futuro sea
Debe tratar de hacer que sus tramas sean lo suficientemente claras como para que, incluso si se reproducen de manera imprecisa en el futuro, la información que la trama intenta transmitir sea legible.
Además de transmitir un mensaje claro, siempre trato de recordar la trama:
He configurado mi software de trazado (matplotlib, ROOT o root2matplotlib) para hacer la mayor parte de este derecho de forma predeterminada. Antes de usar, gnuplot
que necesitaba un cuidado especial aquí.
En el campo de la física, existe la regla de que todo el trabajo / informe debe ser entendible solo con un vistazo rápido a las parcelas. Por lo tanto, aconsejaría principalmente que se explicaran por sí mismas.
Esto también implica que siempre debe verificar si su audiencia está familiarizada con algún tipo de argumento: una vez cometí un gran error al suponer que cada científico sabe qué son los diagramas de caja, y luego perdí una hora para explicarlo.
Aquí están mis pautas, basadas en los errores más comunes que veo (además de todos los otros puntos buenos mencionados)
Eche un vistazo a la biblioteca de gráficos R, ggplot2. Los detalles se encuentran en la página web http://had.co.nz/ggplot2/ Este paquete genera muy buenos gráficos predeterminados, que siguen los principios de Tufte, las pautas de Cleveland y el paquete de colores de Ihaka.
Si traza en color, considere que las personas daltónicas pueden tener problemas para distinguir elementos solo por el color. Asi que:
Estas son sugerencias maravillosas. Hemos reunido una gran cantidad de material en http://biostat.mc.vanderbilt.edu/StatGraphCourse . Un grupo de estadísticos en la industria farmacéutica, la academia y la FDA también están creando un recurso que será muy útil para ensayos clínicos e investigaciones relacionadas. Mucho material nuevo se dará a conocer en un mes, pero ya hay mucho allí: http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Mi libro gráfico favorito personal es Elementos de datos gráficos de William Cleveland.
En términos de software, en mi opinión, es difícil vencer a ggplot2 y los paquetes de celosía de R. Stata también es compatible con algunos gráficos excelentes.
También depende de dónde quieras publicar tus tramas. Se ahorrará muchos problemas consultando la guía de autores antes de realizar tramas para una revista.
Guarde también las parcelas en un formato que sea fácil de modificar o guarde el código que ha utilizado para crearlas. Lo más probable es que necesite hacer correcciones.
No use diagramas de dinamita: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , use diagramas de violín o similares (familia de diagramas de caja)
Las otras respuestas son demasiado formuladas para ser convincentes, así que permítanme dar una respuesta más general. He luchado con esta pregunta por un tiempo. Ofrezco este proceso:
Soy escéptico con respecto a afirmaciones generales como "mantenerlo simple": ¿qué significa eso? Bueno, depende de la audiencia. Algunas audiencias se comerán el estilo Tufte. Pero algunas audiencias aprecian un poco de basura gráfica de vez en cuando. Algunas personas se aburren de los diagramas de dispersión. A algunas personas les gustan los fondos coloridos. ¿Es tan malo involucrarlos un poco, incluso si comprometes la pureza "estética"? Eso depende de ti decidir.
La reacción de tu audiencia será un importante comentario, pero no el único. Si encuentra una manera de medir su comprensión antes y después de su presentación, comenzará a comprender el impacto que ha tenido.
La respuesta "correcta" dependerá de este tipo de preguntas:
¿Qué medios usarás?
¿Estás creando tramas estáticas o interactivas?
¿Estás tratando de contar una historia predefinida (exposición) o alentar la experimentación (exploración)?
¿Hasta qué punto quiere que el público saque sus propias conclusiones?
¿Hasta qué punto quiere que el público siga y se convenza de su historia?
¿Hasta qué punto quiere que la audiencia desafíe sus hallazgos?
En resumen, diseñe sus materiales deliberadamente en función de su mensaje, audiencia y limitaciones.
Una cosa que parece recordar que mencionó Tufte, que no está en las otras respuestas es el mapeo , es decir, hacer que la posición, la dirección, el tamaño, etc. en su gráfico representen la realidad . Lo que está arriba en el gráfico debería estar arriba en el mundo real. Lo que es grande debe ser grande (teniendo en cuenta que las áreas deben representar áreas y volúmenes volúmenes. Nunca intente representar un valor escalar por área, ¡es muy ambiguo!). Esto también se aplica a los colores, formas, etc., si son relevantes.
Un ejemplo interesante es el gráfico de la "serie de faldas" aquí: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Aunque técnicamente es correcto, y una longitud de falda "más alta" ocupa una posición más alta en el gráfico, en realidad es bastante confusa, porque la longitud de la falda comienza desde la parte superior y baja (a diferencia de los humanos o los árboles, donde medimos la altura desde el borde). suelo). Por lo tanto, el aumento de la longitud de la falda representa un valor más bajo:
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
Hay, como siempre, dificultades. Por ejemplo, generalmente consideramos el tiempo para avanzar, y en el oeste, al menos, leemos de izquierda a derecha, por lo que nuestros gráficos de series de tiempo también suelen fluir de izquierda a derecha a medida que aumenta el tiempo. Entonces, ¿qué sucede si desea representar algo que se representa mejor lateralmente (por ejemplo, medidas este-oeste de algo), con el tiempo? En ese caso, debe comprometerse, y retratar el tiempo de un movimiento hacia arriba o hacia abajo (lo cual depende nuevamente de las percepciones culturales, supongo), o elegir mapear su variable lateral hacia arriba / abajo en su gráfico.
Depende de la forma en que se discutirán las parcelas.
Por ejemplo, si estoy enviando diagramas para una reunión de grupo que se realizará con personas que llaman desde diferentes lugares, prefiero reunirlos en Powerpoint en lugar de Excel, por lo que es más fácil dar la vuelta.
Para las llamadas técnicas uno a uno, pondré algo en Excel para que el cliente pueda mover un diagrama a un lado y ver los datos sin procesar. O bien, puedo ingresar valores p en las celdas junto con los coeficientes de regresión lateral, p. Ej.
Recuerde: las tramas son baratas, especialmente para una presentación de diapositivas o para enviarlas por correo electrónico a un grupo. Prefiero hacer 10 tramas claras que podemos hojear en lugar de 5 parcelas donde trato de poner cohortes distintas (por ejemplo, "hombres y mujeres") en la misma gráfica.
I would add that the choice of plot should reflect the type of statistical test used to analyse the data. In other words, whatever characteristics of the data were used for analysis should be shown visually - so you would show means and standard errors if you used a t-test but boxplots if you used a Mann-Whitney test.