Visualización de datos de la tercera ola

Comprender la convergencia de herramientas, audiencias y modos.

Esta es una redacción de mi discurso de apertura de la Conferencia de Tapices 2018 (arriba). Puede ver las diapositivas (de las cuales he derivado muchas de las imágenes a continuación) con las notas del orador aquí.

Imagine lo que era hacer visualización de datos hace 30 años. Es 1988 y está utilizando Excel 2.0 para gráficos simples como gráficos circulares y gráficos de líneas, o tal vez algo como SPSS para exploración más complicada y Arc / Info para visualización de datos geoespaciales. Algunos tipos de gráficos que se han vuelto bastante ubicuos, como el mapa de árbol, aún no se han inventado. Pero en 1988, la exhibición visual de información cuantitativa de Edward Tufte ya tenía cinco años.

Imágenes de analistas que operan Excel 2.0 para hacer gráficos circulares c. 1988

Ahora, imagine cómo fue hacer una visualización de datos hace 15 años. No había D3, Tableau, ggplot o incluso Prefuse / Flare. Si desea realizar la visualización en red, puede utilizar el Cytoscape recientemente publicado, aunque se centró en la bioinformática. Las opciones geoespaciales eran más avanzadas, con ArcGIS proporcionando más y más funcionalidad cartográfica en sus muchas cajas de herramientas rojas.

La diferencia en las tradiciones que respaldan la visualización de datos geoespaciales y la visualización de datos de red: en 2003 ya era la versión 8.0 de ArcGIS, mientras que ese mismo año vio el lanzamiento de la primera herramienta moderna de visualización de datos de red: Cytoscape.

Sé cuánto ha cambiado la visualización de datos porque pasé los últimos diez años más o menos haciendo productos de visualización de datos de una forma u otra. Gran trabajo de cara al público como ORBIS y Kindred Britain, así como menos visualización de datos públicos por diversión o para apoyar la investigación, el análisis y la exploración. Junto con el trabajo práctico de visualización de datos, escribí un libro sobre la biblioteca de visualización de datos más poderosa del mundo hoy en día: D3. Y luego volví a escribir ese libro. Durante el último año he estado construyendo mi propia biblioteca de gráficos, Semiotic. También he realizado una encuesta anual de profesionales de visualización de datos durante los últimos dos años. Y en el camino he escrito sobre visualización de datos aquí en Medium.

No es por eso que fui invitado a dar una conferencia magistral en Tapestry. Fui invitado porque hago comentarios incendiarios en las redes sociales y en entrevistas y ocasionalmente en conversaciones. Hace tiempo que digo que deberíamos sentirnos más cómodos con la crítica en la visualización de datos, pero sin contexto las observaciones que hago pueden parecer arbitrarias y mezquinas.

Así que me alegró tener esta oportunidad de dar contexto y expresar mi preocupación de que haya habido una convergencia de herramientas y modos, pero no una reorganización correspondiente del pensamiento y la práctica. Parece que todavía estamos hablando y evaluando la visualización de datos como si fuera 1988 o 2003, cuando la cantidad de personas que realizan la visualización de datos, las capacidades de sus herramientas y las expectativas de sus audiencias han aumentado dramáticamente.

Continuamos dividiendo la comunidad de visualización de datos en categorías antiguas, como analistas que usan herramientas de BI para crear informes, desarrolladores que usan código para hacer una visualización de datos personalizada, periodistas que crean historias basadas en datos o científicos de datos que aprovechan el análisis exploratorio de datos. Dentro o entre esos grupos tenemos artistas de datos, científicos profesionales, analistas de negocios y fabricantes de herramientas del tipo que podríamos ver inmortalizados en los dibujos animados de Susie Lu. Estas categorías de práctica se asignan directamente a herramientas y modos particulares que, últimamente, han comenzado a transformarse.

1ª ola: claridad

Y, por lo tanto, me gustaría ofrecer que, en el sentido moderno de la visualización de datos, una primera ola centrada en Edward Tufte que enfatizó la claridad, la simplicidad y el mapeo directo de puntos de datos 1 a 1 evitando la mayor transformación posible . A partir de esta era, vemos el surgimiento de esquemas de color espartanos, a menudo centrados en colores neutros o desaturados con un color destacado, la importancia de las etiquetas y los títulos del lenguaje natural, y una especie de idealización de la tabla perfecta que es inmediatamente legible, accesible y accionable . Una especie de gráfico como oración con estructuras y reglas claras como las que puede ver en The Elements of Style.

Ola 1: claridad

2da ola: sistemas

La segunda ola se centró en sistematizar la codificación de información necesaria para el desarrollo de herramientas para producir la visualización de datos. Se centra en el trabajo más influyente sobre este tema: La gramática de los gráficos de Leland Wilkinson. En lugar del gráfico como una analogía lingüística, es el gráfico como una extrusión de una especificación válida. La Gramática de Gráficos aspiraba a permitir a las personas crear un conjunto de gráficos y si echamos un vistazo a cualquier biblioteca de visualización de datos, incluida la mía, y vemos esa filosofía en acción.

Estas herramientas y bibliotecas anuncian cantidades masivas de ejemplos y el uso cuidadoso del color y el texto, reemplazado por una carta de amor a la geometría. Todo el enfoque "por ejemplo" está tan arraigado en estas herramientas que Mike Bostock escribió un artículo completo sobre él.

Ola 2: Sistemas

D3, como todas las herramientas de este período, está directamente inspirado o fuertemente influenciado por The Grammar of Graphics. Semiótico, Victoria, Highcharts, Plotly: Todos estos provienen o están muy influenciados por D3. Las dos g en Grammar of Graphics es donde ggplot recibe su nombre. Leland Wilkinson, el autor, fue un científico investigador principal en Tableau. La gramática de los gráficos se enfoca de manera muy precisa en la codificación de datos a través de canales en la geometría. Este es un sistema para codificar gráficos a partir de datos, donde los atributos de los datos corresponden y afectan dinámicamente la longitud, el ángulo, el color o la posición (o cualquier otro carácter gráfico) en función de los datos y los cambios en los datos.

Wave 2 trataba de tomar estos sistemas teóricos y producir las herramientas necesarias para que cualquier profesional de visualización de datos creara cualquier expresión gráfica basada en datos. Eso es genial para ingenieros y arquitectos de software que intentan crear bibliotecas para permitir la visualización de datos, pero no necesariamente para los profesionales que crean productos de visualización de datos. Es por eso que hemos visto una proliferación de herramientas y bibliotecas para la visualización de datos, pero un aumento simultáneo de gráficos horribles que se hacen pasar por gráficos.

La búsqueda de una especificación perfecta para codificar atributos de datos a través de canales gráficos es un medio para un fin. Pero el poder y el éxito de los sistemas construidos durante este período se convirtieron en un fin para ellos mismos, lo que entra en conflicto con un precepto básico de The Grammar of Graphics:

Este sistema es capaz de producir algunos gráficos horribles. ... Sin embargo, este sistema no puede producir un gráfico sin sentido.

Con esto, Wilkinson quiere decir que existe una relación lógica entre los gráficos y los datos, pero el hecho de que los gráficos tengan algún tipo de "receta" no significa que de alguna manera "no tenga sentido". La visualización de datos es una forma de comunicación y si produce gráficos horribles, eso significa que son ilegibles y eso significa que no tienen sentido.

La visualización de datos es una forma de comunicación y si produce gráficos horribles, eso significa que son ilegibles y eso significa que no tienen sentido.

La visualización de datos de 2nd Wave, con su falta de énfasis en el diseño a favor de los sistemas, produjo un bosque de paneles e informes horribles. Cada departamento de ingeniería en cada compañía tiene al menos un gráfico en tiempo real feo escrito con un marco construido en D3. Cada ejecutivo tiene una docena de tableros de tableros llenos de pestañas y vistas de los mismos gráficos de líneas desaturadas de 10 colores. Vemos capturas de pantalla de lo que aparentemente es un análisis exploratorio de datos que se incluye en documentos o se integra en paneles sin ningún sentido de optimización. Todo esto sucede a pesar de la creciente paridad de características entre las tecnologías.

3ra ola: convergencia

Necesitamos desesperadamente reevaluar y renombrar nuestros modos. Hace 5 o 10 años, qué tipo de visualización de datos realizó, ya sea un tablero de instrumentos, un cuaderno, un informe o una pieza de comunicación personalizada, fue muy diferente según el idioma, la biblioteca o la herramienta que estaba utilizando. Ese ya no es el caso.

Necesitamos imaginar nuevos enfoques que reconozcan que la convergencia no solo está ocurriendo en las capacidades de las herramientas, sino también en la expectativa de los usuarios que ya no están dispuestos a aceptar que necesitan salir de un modo para optimizar para otro. Eso implica alejar nuestro énfasis de los gráficos individuales a la construcción, evaluación y entrega de los productos donde aparecen esos gráficos.

La plataforma de portátiles nteract se anuncia no solo a los usuarios tradicionales de portátiles (investigadores y científicos de datos) sino a un público amplio interesado en algo más que solo

Los portátiles se están volviendo más parecidos a los paneles, los paneles se están volviendo más parecidos a la narración de historias y, en general, existe una creciente polinización cruzada y convergencia entre los medios / modos. Puede crear hermosos gráficos con R, puede tener gráficos jerárquicos en Tableau, puede implementar fácilmente informes de correo electrónico desde su tablero personalizado.

En Netflix, estamos experimentando con cuadernos analíticos diseñados no para el análisis exploratorio de datos, sino para la visualización explicativa de datos y las necesidades de colaboración y comunicación requeridas en ese modo. Las técnicas de narración de cuentos comunes al periodismo de datos son prioritarias para las partes interesadas que se han vuelto sofisticadas en sus gustos y esperan una animación con señales y marcos de referencia personalizados.

Hay cada vez más de estas tendencias que necesitamos entender mejor:

  • Una vez que los tipos de gráficos esotéricos, como los diagramas de árbol y los diagramas de enlace de nodo, ahora son tan accesibles que aparecen en todas partes, y ahora se necesita un gráfico realmente extraño para ser declarado xenográfico.
  • Las computadoras portátiles se utilizan como paneles y también como artefactos en el proceso de ingeniería y transformación de datos.
  • La visualización de datos en R se ha vuelto casi tan robusta e interactiva como la visualización de datos en herramientas de BI o aplicaciones personalizadas.
  • Las personas se sienten cada vez más cómodas con la visualización de datos estilizada (incompleta pero también con ISOTYPE).

¿A donde vamos?

Todos estos factores contribuyen a lo que creo que definirá una tercera ola de visualización de datos donde convergen modos como cuadernos, tableros y narración de historias largas, al igual que las herramientas para crearlos y la alfabetización de las audiencias para las que están hechos. Esto ha estado sucediendo durante algún tiempo y hemos reaccionado, pero creo que es hora de considerar activamente lo que esto significa.

Gráficos de Clickbait

Eso requiere que nos alejemos de la expectativa de que estamos haciendo gráficos aislados optimizados para una legibilidad inmediata. Actualmente evaluamos y celebramos la visualización de datos que está diseñada y optimizada para una sola visita. Está bien, pero también debemos promover y evaluar y comprender mejor la visualización de datos diseñada y optimizada para múltiples visitas. UI y UX deben ser preocupaciones de primera clase y la interactividad no puede ser solo un atributo de la geometría. Para hacer esto, tenemos que alejarnos del modelo del genio aislado creando visualización de datos a medida y traer las mejores prácticas de proyectos colaborativos comunes a la comunidad de desarrollo de software más grande.

Crítica de crianza

Es fácil menospreciar un gráfico circular 3D o el último "mapa increíble". Puede parecer que así fue como se posicionó el último punto, pero no lo es, es un intento de empujarnos a ser capaces no solo de celebrar lo bueno de la visualización de datos, sino también de hablar honestamente de lo que es malo. Necesitamos hacer más de eso si queremos avanzar como comunidad. Pero la crítica es difícil: difícil de escuchar y de dar bien.

Parte de la razón por la que somos tan malos para dar, recibir y fomentar la crítica es que la visualización de datos ha sido durante mucho tiempo una búsqueda individualista. La otra razón por la que no somos tan buenos en la crítica es que la nuestra es una comunidad de celebración. Pero la celebración no es un acto totalmente positivo cuando se separa y exotiza mecanismos poderosos para avanzar en la comunicación a través de la implicación de que solo están disponibles para periodistas o trabajadores independientes.

En parte, creo que esto tiene que ver con nuestro énfasis en los canales individuales en la literatura académica. Nos sentimos muy cómodos criticando gráficos circulares porque sabemos que los ángulos son malos en el valor de codificación. Pero nos faltan pautas sobre cómo evaluar de manera más integral, por lo que no podemos explicar por qué algunas opciones de codificación, aunque no son óptimas de forma aislada, pueden resultar valiosas en la práctica. Tampoco sabemos cómo evaluar el atractivo, por lo que carecemos del lenguaje o la estructura para explicar por qué a las personas les gustan los círculos de tamaño en gráficos de abejas y gráficos de símbolos graduados tan fácilmente como podemos explicar por qué los círculos son una mala opción para codificar el valor.

Rediseño de la carta de Giorgia Lupi por Alberto Cairo de The Functional Art.

Otra razón por la que no somos buenos en la crítica es que tenemos este modelo de crítica muy destacado (defendido por Alberto Cairo, así como por Fernanda Viegas y Martin Wattenberg) que implica que la mejor manera de criticar una visión es rehacerlo. Si bien este es un enfoque valioso, es tan costoso en mano de obra e inversión intelectual que lo hace naturalmente menos común que simplemente señalar cosas que no funcionan en un producto de visualización de datos. Junto con este enfoque, necesitamos promover y aumentar nuestro nivel de comodidad con formas menos críticas de crítica.

No podemos hacer esto escribiendo un montón de artículos de opinión sobre la crítica, aunque sería bueno tener algunas taxonomías de críticas como las taxonomías de los gráficos. Necesitamos trabajar activamente para desarrollar nuestra comunidad para que sea un lugar para dar, recibir y modelar el discurso crítico. El artículo reciente de Ben Jones sobre cómo construir una comunidad de visualización de datos saludable proporciona una buena guía basada en la experiencia del mundo real que todos deberíamos seguir.

Comprender el diseño

Algunos resultados relacionados con el diseño de la encuesta de visualización de datos de 2018.

Las respuestas de la encuesta y la conversación indican que el diseño es un tema importante para mejorar la práctica de visualización de datos. Pero los practicantes han expresado confusión sobre lo que significa el diseño. ¿Nos referimos al diseño gráfico? Diseño de interfaz de usuario? ¿Conceptos generales de pensamiento de diseño? Diseño de información? Hay una falta de enfoques de diseño carnoso en la visualización de datos que puedan ser enseñados y aprendidos por profesionales de carrera temprana.

Colores y gifs encantadores como los que se encuentran en la visualización de datos Dragonball Z de Nadieh Bremer o simples trucos como el salto de línea en

Abraza la economía de la atención

Creo que el día de la "conciencia ocular" se acerca rápidamente.
- Otto Neurath

Cuando llegué a Netflix desde Stanford, pensé ingenuamente que, dado que era un negocio, los empleados se verían obligados a usar y aprender la visualización de datos que hice. Descubrí rápidamente que ese no era el caso. La propia cultura de Netflix estaba en contra de tales medidas dictatoriales, pero aún más, mis partes interesadas intentaban tomar decisiones críticas y mis productos de visualización de datos competían con una docena o más de otros paneles e informes.

Como resultado, el trabajo que estamos haciendo internamente en Netflix aprovecha imágenes, gifs, colores divertidos y métodos visuales novedosos para deleitar a los usuarios. Si bien la prohibición general contra chartjunk es una buena regla, como todas las cosas, se puede aplicar de manera demasiado estricta. Un enfoque más decorativo que reconozca la existencia de una economía de atención incluso en una organización basada en datos dará como resultado una visualización de datos más efectiva.

Sangre nueva

Ya hemos pasado por un período desordenado en el que nuestra comunidad sintió la necesidad de distanciarse radicalmente de los líderes más antiguos, hasta el punto de que Edward Tufte bloqueó Twitter en Twitter y se convirtió en una especie de rito de iniciación. No deberíamos tener que hacer eso para escuchar y amplificar nuevas voces. Necesitamos identificar y promover activamente nuevas voces en el liderazgo de visualización de datos.

¿Quiénes son los líderes para una visualización de datos de tercera ola? ¿Quién aprovecha las nuevas oportunidades que presenta la convergencia de modos, audiencias y herramientas? ¿Cómo se ve ese nuevo trabajo? ¿Se trata de portátiles con funciones de paneles y narración basada en datos como Boba Science de Krist Wongsuphasawat? ¿Se trata de nuevos enfoques para las herramientas de gráficos como Charticulator? ¿O el uso de R para hacer gráficos de visualización de datos para las noticias, como el que se ve en el trabajo de John Burn-Murdoch? ¿O el estilo de datos de Giorgia Lupi en Tableau como lo ha hecho Neil Richards? ¿O es el límite difuso entre visualización de datos, marginalia, caricatura y texto que se ve en INFO DE CONFIANZA de RJ Andrews? ¿O es el sorprendente enfoque dibujado a mano de Mona Chalabi? ¿O es otra cosa?

Una cosa es segura, tenemos ejemplos de aquellos que se han optimizado para las mejores prácticas pasadas, ahora necesitamos aquellos que personifiquen una nueva ola de visualización de datos.