Edición III: encontré un magnífico ejemplo de visualización de datos cuantitativos multivariables y tuve que agregarlo. Lo encontrará bajo el título "Edición III (premios Nobel)".
Edición II: ha habido un pequeño malentendido, y he editado para tratar de aclarar cómo interpreto el uso previsto de los datos. Reemplacé dos imágenes y agregué una sección "¿Quieres papas fritas con eso?"
Los gráficos revelan datos.
Edward Tufte:
El desorden y la confusión son fallas de diseño, no atributos de información. Clutter requiere una solución de diseño, no reducción de contenido. Muy a menudo, cuanto más intenso es el detalle, mayor claridad y comprensión, porque el significado y el razonamiento son implacablemente CONTEXTUALES. Menos me aburre.
¿Por qué visualizamos datos?
- Herramientas para pensar
- Mostrar el resultado de una visión intensa.
- Para entender un problema, para tomar una decisión.
- Mostrar comparaciones, mostrar causalidad
- Proporcione razones para creer
¿Cómo?
- muestra los datos
- inducir al espectador a pensar en la sustancia en lugar de en la metodología, el diseño gráfico, la tecnología de producción gráfica u otra cosa
- evitar distorsionar lo que dicen los datos
- presentar muchos números en un espacio pequeño
- hacer conjuntos de datos grandes coherentes
- animar a la vista a comparar diferentes datos
- revelar los datos en varios niveles de detalle, desde una visión general amplia hasta la estructura fina.
- cumplir un propósito razonablemente claro: descripción, exploración, tabulación o decoración.
- estar estrechamente integrado con las descripciones estadísticas y verbales de un conjunto de datos.
Algunas definiciones:
Datos:
generalmente se considera "cosas que se ordenan en bases de datos". Por supuesto, esto puede ser números, imágenes, sonido, video, etc. Los datos son recopilables, a menudo cuantitativos. En su forma más cruda es difícil de digerir; solo paredes de dígitos. Ya sabes; la matriz . En términos generales, no tenemos bases de datos masivas que consisten en ceros, para todas las cosas que no tenemos, incluso si a veces las cosas que no tenemos son las más informativas . Así que para ver lo que no tenemos, necesitamos visualizar lo que sí tenemos.
Información:
es lo que puedes extraer de los datos . Al mostrar datos de alguna manera, podemos obtener información . Uno de los ejemplos que uso a menudo es que si le doy una lista de los países del mundo y le digo que faltan dos, es muy poco probable que los encuentre en función de esa lista. Sin embargo, si muestro esto coloreando todos los países que tengo en un mapa, verás instantáneamente que he omitido la República Centroafricana y Nueva Caledonia. Esto es "reducir el ruido" y contar una historia de la manera más efectiva posible.
Infografías y visualizaciones de datos:
Dudo en llamar a su ejemplo de infografía. Sé que esto a menudo se ve como sinónimos de visualización de datos, diseño de información o arquitectura de información, pero no estoy de acuerdo. Para mí, las infografías son una serie de gráficos, diagramas e ilustraciones que bien podrían contener un montón de declaraciones sesgadas sobre cómo leer los datos. Es menos objetivo, más propenso a saltear datos que no están en el "interés" del creador: se le guía a la conclusión de que alguien predefinió. Tienen un valor de entretenimiento, y a menudo tienen un uso abrumador de ilustraciones que quitan algo de foco de los datos. Esto está bien, pero creo que deberíamos diferenciarnos un poco.
Ejemplos
Big data:
Tenga en cuenta que big data no es lo mismo que datos complejos. Muchos datos pueden ser muy similares, como este mapa de LinkedIn: los datos principales son los mismos, pero hay filtros (por etiquetado). Hay dos variables: geografía y algún tipo de etiqueta que define a las personas en profesiones / intereses / relaciones. Cantidad insana de datos; pero solo dos variables.
Multivariable:
Aquí hay un ejemplo de visualización multivariable de datos. Este es el gráfico de 1869 de Charles Minard que muestra el número de hombres en el ejército de campaña ruso de Napoleón en 1812, sus movimientos, así como la temperatura que encontraron en el camino de regreso.
Gran versión aquí.
Toma un poco de tiempo descifrar el código, pero cuando lo haces es espléndido. Las variables cubiertas son:
- tamaño del ejército (número de vivos / muertos)
- ubicación geográfica
- dirección (este - oeste)
- temperatura
- hora (fechas)
- causalidad (muerto en batallas y de frío)
Esa es una cantidad sorprendente de información en un mapa simple de dos colores. La parte geográfica está estilizada para dar espacio a las otras variables, pero no tenemos problemas para obtenerla.
Aquí hay uno más complicado. Esto será mucho más fácil de leer si está familiarizado con visualizaciones evolutivas básicas, cladogramas, filogenia y principios de biogeografía. Tenga en cuenta que está hecho para personas familiarizadas con esto, por lo que es un cuadro científico especializado. Esto es lo que muestra: una imagen filogeográfica de linajes de ranas venenosas de América del Sur. Los mapas a la izquierda muestran las principales regiones biogeográficas a medida que cambian con el tiempo y la imagen a la derecha muestra los linajes de las ranas en el contexto de sus orígenes biogeográficos. (Por Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], a través de Wikimedia Commons). Cuando "descifra el código" es salvajemente, sorprendentemente informativo.
Pequeños múltiplos, minigráficos:
No puedo enfatizar esto lo suficiente: nunca subestimes el valor de repetir información o dividirla en visualizaciones idénticas separadas. Mientras sea razonablemente fácil comparar un gráfico con otro, esto está perfectamente bien. Somos máquinas de búsqueda de patrones. Esto a menudo se conoce como pequeños múltiplos. Tenemos pocos problemas para analizar estas imágenes con bastante rapidez, y agrupar todo en un gráfico grande a menudo no tiene sentido cuando diez pequeños funcionarán aún mejor:
Otro:
Y uno que usa gráficos diferentes pero repetitivos:
Sparklines es un término acuñado por Edward Tufte, y también desarrollado en una
biblioteca de JavaScript totalmente funcional y totalmente personalizable. Son básicamente gráficos pequeños que se pueden insertar en el texto, como parte del texto y no como un objeto "externo". Este es el aspecto predeterminado:
Edit III (premios Nobel)
Solo tuve que agregar esta visualización de datos que encontré, simplemente es demasiado buena: muestra premios Nobel. Qué universidad, qué facultad, materia, año, edad, lugares de origen, si fue compartido, nivel de grado. Hermosa evidencia de hecho. Todos estos son datos cuantificables. Más aquí.
Tu información
Todas las preguntas que plantea @Javi son extremadamente importantes.
Lo que intenta hacer es crear una herramienta visual para pensar. Para hacerlo, debe extraer la mejor calidad de relación señal / ruido. Lo que está luchando es cómo correlacionar datos que tienen diferentes variables, en información . Aquí hay una pregunta: ¿qué debe ser aproximadamente correcto y qué debe ser exactamente correcto? ¿Cuál es el objetivo?
Voy a suponer que desea mostrar los datos sin demasiados sesgos: desea que el lector encuentre correlaciones por sí mismo, si hay alguna correlación. Su objetivo no es decirle a las personas que las hamburguesas son malas para ellas o que las mujeres comen menos hamburguesas que los hombres, sino dejar que lo "vean", si eso es lo que contienen los datos (imagine si esas tres personas fueran una familia. cambiar un poco nuestro punto de vista sobre el gráfico de comer hamburguesas).
Su conjunto de datos es tan pequeño que simplemente podría ponerlo todo en una tabla y estaría bien. Pero, por supuesto, se trata de la idea general:
Un pequeño detalle: el tiempo (edad) tiende a ser algo que vemos como horizontal de izquierda a derecha (líneas de tiempo). Pese algo que esté arriba-abajo, por lo que cambiar su x - y sería una buena idea.
1. ¿Cuáles son las entidades únicas y fijas?
2. ¿Cuáles son las variables variables (eh ..)?
- Peso (kg)
- Edades (años)
- Número de hamburguesas (entero)
- Tipo de hamburguesas (entero)
Nota: sus datos consisten enteramente en unidades. Contable, cuantificable cada uno en una escala mental separada. Kilo, edad, peso y números. Y en base de datos, sus nombres son las claves. Cuando comienzas a hacer visualizaciones de espacio-tiempo, se convierte en un verdadero dolor de cabeza. Imagine que debe agregar el lugar de nacimiento, el hogar actual, etc.
Los únicos dos aquí que tienen correlación es el número de hamburguesas y si es o no un combo. Todas las demás variables son independientes, y solo una es fija (nombre). En algún momento, con grandes conjuntos de datos, incluso los nombres dejan de ser interesantes y se reemplazan por datos demográficos, de edad, de sexo o similares.
Con ese pequeño conjunto de datos, podría obtenerlo todo en un gráfico, por ejemplo, así:
O podría cambiar el eje y el contenido de la burbuja de nombre:
Nota personal: Creo que este es el mejor de los dos, porque los x e y contienen propiedades "físicas" de un ser humano. La variable en las burbujas aquí son el número de hamburguesas.
También puede agregar gráficos circulares además del gráfico, o incluso solo tener gráficos circulares. Personalmente tendría ambos, como se mencionó sobre los múltiplos pequeños:
Quieres papas fritas con eso?
Mi suposición fue que también queríamos saber la proporción de hamburguesa a comida. Cada comida contiene una hamburguesa. No todas las comidas son combomeals.
- ¿solo queremos saber si una persona a veces come combomeals?
- ¿O queremos saber cuántas de las comidas de hamburguesas también son combomeals?
Si 1., un booleano aplicado al nombre / clave / id sería suficiente.
¿Jane a veces come combomeals? Verdadero Falso.
Si 2., podríamos aplicar un booleano a cada comida:
1 hamburguesa con queso, combomeal = verdadero
1 hamburguesa con queso, combomeal = verdadero
1 hamburguesa con queso, combomeal = falso
1 hamburguesa con queso, combomeal = falso
1 hamburguesa con queso, combomeal = falso
1 hamburguesa con queso, combomeal = falso
1 hamburguesa con queso, combomeal = falso
1 hamburguesa de carne, combomeal = verdadero
1 hamburguesa de carne, combomeal = verdadero
1 hamburguesa de carne, combomeal = falso
Eso es muy tedioso, por lo que podríamos desglosarlo en:
Jane come 10 hamburguesas. De estos, tres son combos ("¿quieres papas fritas con eso?").
Uno de los combomeals es un menú de hamburguesas.
Dos de los combomeals son el menú de hamburguesas con queso.
El resto son hamburguesas individuales. 5 quesos, dos de res.
Este gráfico fue un intento de visualizar eso. En esta versión he guardado las rebanadas de pastel para que quede más claro. Lo importante es que no sería un gran salto comenzar a aplicar grandes conjuntos de datos y%:
Pero creo que la mejor manera es repensar.
Otra forma de verlo, es hacerlo realmente muy simple. Aquí es más fácil ver qué grupos de edad, qué grupos de peso y todos los datos que no "tiene" nos pueden decir. Los datos que tiene no están relacionados con el espacio, son solo unidades (kg, años, números + clave / id / nombre):
(Editar: Huevo en mi cara: he reemplazado estas imágenes por otras más correctas, en cuanto a "todas las comidas son hamburguesas, no todas las comidas son combo")
Esto sería bastante fácil de expandir con más personas:
O, aún mejor, si compara los grupos de edad de 10, 20 y 30 años, podría hacer una visualización estadística bastante simple de leer:
..Y solo para ser lo más claro posible; Aquí hay un ejemplo de esta forma de pensar. Este gráfico muestra los sobrevivientes de Titanic, proporción de tripulación, clase, hombres, mujeres.
Habrá muchas otras soluciones, estas son solo algunas ideas.
Podría seguir y seguir, pero ahora me he agotado y probablemente a todos los demás.
Herramientas para jugar:
Gephi
Gapminder Vea esta
presentación fenomenal de TED por Hans Rosling: ama a ese chico
Cartas de Google
somvis
Raphaël
MIT Exhibit (anteriormente llamado Similie)
d3
Highcharts
Otras lecturas:
PJ Onori; En defensa de lo duro
Edward Tufte: hermosa evidencia
Edward Tufte: imaginando información
Edward Tufte: la visualización de información cuantitativa
Explicaciones visuales: imágenes y cantidades, evidencia y narrativa
Hombre, Alan., 2007 Ilustración una perspectiva teórica y contextual Lausana, Suiza; Nueva York, NY: AVA Academia
Isles, C. y Roberts, R., 1997. En luz visible, fotografía y clasificación en arte, ciencia y cotidiano, Museum of modern art Oxford.
Card, SK, Mackinlay, J. y Shneiderman, B. eds., 1999. Lecturas en visualización de información: Uso de la visión para pensar 1ª ed., Morgan Kaufmann.
Grafton, A. y Rosenberg, D., 2010. Cartografías del tiempo: una historia de la línea de tiempo, Princeton Architectural Press.
Lima, M., 2011. Complejidad visual: mapeo de patrones de información, Princeton Architectural Press.
Bounford, T., 2000. Diagramas digitales: cómo diseñar y presentar información estadística de manera efectiva 0 ed., Watson-Guptill.
Steele, J. e Iliinsky, N. eds., 2010. Hermosa visualización: mirar los datos a través de los ojos de expertos 1ª ed., O'Reilly Media.
Gleick, J., 2011. La información: una historia, una teoría, un diluvio, panteón