La data visualization: entre statistiques, marketing et art graphique

La « data visualization » est l’ensemble des techniques de communication et de visualisation de données brutes visant à en faire ressortir un message et de captiver un auditoire. À la croisée des chemins entre la communication, les statistiques, l’art et l’analyse exploratoire, la data visualization a longtemps été réservée à une poignée de statisticiens jusqu’à ce que l’avènement du big data ne la fasse sortir de l’ombre.

Sa finalité : la simplicité. Son objectif : communiquer clairement et explicitement de grandes quantités de données sous une forme visuelle pour les rendre accessibles au plus grand nombre.

Quand vous aurez terminé la lecture de cet article, plus d’un million de données brutes auront été collectées à travers le Monde, ces informations iront alors rejoindre l’océan infini et protéiforme du big data quelque part entre le Cloud et un Datacenter dans les soubassements d’une tour de bureau prêtes à être décortiquées. Dès les années 90, les communicants ont senti le besoin de présenter clairement et de façon visuelle  à un auditoire souvent peu averti de grandes quantités d’informations : Ainsi allait naître la data visualization.

La data, le nouveau pétrole

« La data est le nouveau pétrole » cette phrase prononcée pour la première fois par le brillant statisticien David McCandless allait mettre en exergue un état de fait global propre à la nature de l’être humain et à l’évolution inexorable de la technologie érigée en relai de croissance de la société occidentale : « Les nombres sont la connaissance » disait le statisticien Charles Sanders, ces nombres qui permettent aux entreprises de prendre de bonnes décisions, clés de voûte des différentes stratégies marketing, des plans d’action des entreprises, des États ou même des grandes Institutions internationales.

Cette data permet par exemple aux services marketing de cibler un segment de clientèle avec une acuité imparable, elle permet aux États de commander le bon nombre de vaccin pour combattre une pandémie, etc. Ces données offrent une analyse quasi-scientifique à des organisations qui jadis, se basaient sur du ressenti humain et sur des estimations subjectives, pour prendre des décisions.

Du chaos à la clarté

La clarté, la transmission d’un message et la lisibilité pour le public sont les premiers intérêts de la data visualization. Le statisticien John W-Tuckey avait pour habitude de montrer ses présentations à ses petits-enfants et se plaisait à dire que si enfant de 10 ans pouvait comprendre ses diagrammes, alors ses actionnaires le pourraient aussi.

A notre tour d’être plus clair : la meilleure façon de saisir le concept de data visualization est de l’illustrer avec des exemples parlant des procédés les plus répandus.

L’Anamorphisme

WP1
©Worldmapper 2014

Partons de cette assertion :« Le taux de natalité en Chine est de 8/1000 enfant par femme contre 250/1000 au Nigéria. Présentées sous cette forme, il est difficile de saisir concrètement les informations que veulent véhiculer cette phrase. Essayons maintenant de la traduire en image. Cette première carte du Monde, à gauche, est totalement normale, et ne montre rien de particulier.

 

 

 

©Worldmapper 2014
©Worldmapper 2014

Sur la base des statistiques de la Banque Mondiale, observons maintenant cette seconde carte du Monde qui représente la taille des pays en fonction du taux de natalité par femme. Cet exemple très simple de data visualization va mettre beaucoup de choses en perspectives. Essayons maintenant de la traduire en image. Le constat est frappant. Et il est beaucoup plus lisible ; étonnant que la Chine (entourée en rouge) malgré ses 1,3 milliards d’âmes se fasse voler la vedette par le Nigeria ce petit pays d’Afrique au 20 millions d’habitants. Ce procédé s’appelle l’anamorphisme, il est très utilisé en data visualization et permet d’agréger visuellement des données complexes.

Le Treemap

treemap1
©Information is Beautiful 2010

Prenons maintenant un autre exemple permettant de mettre en perspective des chiffres et de leur donner un sens plus concret : « Les États-Unis ont le plus gros budget militaire au Monde à 607 MDS USD/an (2008),ce budget est environ 20 fois plus important que celui de la Russie.  (36MDS USD/an) »

Indubitablement, comme on le voit à droite, le budget militaire américain est considérable par rapport à celui des autres pays développés.

©Information is Beautiful 2010

 

Ce budget est d’ailleurs si gros, que tous les autres budgets de pays développés réunis restent inférieurs à celui des USA. Avec cette somme, il serait possible de supprimer trois fois la dette de l’Afrique où encore le déficit de la Grande-Bretagne. En mettant en relief visuellement des nombres entre eux, il est plus facile de les proportionner. Cette technique de data visualization est appelée « treemap »

 

Le Network spatialization (représentation spatiale)

Le marché des commerces alimentaire est saturé, les centres villes des principales agglomérations sont remplis de magasins et les réseaux de distribution intégrés ont de plus en plus de mal à trouver l’emplacement idéal, cet emplacement qui conditionne le succès ou non d’une unité commerciale. Pour sécuriser leurs assets, les entreprises utilisent une technique bien connue des data scientists : le « network spatialization ». En se mettant dans la peau d’une enseigne de commerce alimentaire de petite surface voulant s’implanter en ville, nous chercherions le meilleur emplacement avec donc : peu de concurrence et beaucoup d’habitants susceptibles de venir faire leurs courses.

netspa
Moritz Stefaner, 2013 – Copyright Stadtbilder

Sur cet exemple de carte (totalement fictif et inventé) tiré de d’un quartier d’une grande ville,  il a été possible grâce à un outil de data visualization et d’un jeu de données tiré de Uberclic de mettre en couleurs différentes zones à partir de plusieurs jeux de données.

Ainsi en jaune se trouvent les zones d’habitations, en violet les zones de chalandises des magasins alimentaires. Enfin, en bleu, se trouvent les zones où il n’est plus possible de s’implanter suites aux différents arrêtés municipaux. L’épaisseur des formes représente elle le poids de ces zones.

Instantanément et d’un simple coup d’œil, il est possible de visualiser très clairement où s’implanter et où ne pas s’implanter. Sûrement pas au niveau du cercle rouge, en revanche les cercles verts semblent être de bons emplacements : des zones d’habitations et peu ou pas de concurrence. Cette analyse ne se suffit naturellement pas à elle-même, mais elle permet en cinq secondes de prendre un début de décision et d’éliminer nombre de possibilités.

Au croisement de ces trois techniques on retrouve la force de la data visualization, donner du sens. Faire passer des messages. il est possible de mettre en exergue les idées, au-delà des données. En ne perdant jamais de vue l’idée que plus la data est riche, plus la visualization sera riche.

Aux confins du cerveau humain

Pourquoi finalement est-il indispensable de mettre en forme les données, pourquoi toutes ces fioritures quand un simple «  diagramme camembert » ou un graphique en barres pourrait suffire ? La réponse se situe dans le cerveau humain. Malgré ses extraordinaires capacités, le cerveau humain ne peut se concentrer que sur un certain nombre d’informations en simultané. Un phénomène simple permet de parfaitement l’illustrer : notre cerveau ne peut compter que quatre objets en même temps.

Pour vous en assurer, faites le test : observez spontanément et rapidement un lot d’objets, naturellement, si le nombre d’objets est inférieur à cinq vous n’aurez pas besoin de compter, le calcul se fera tout seul. Réessayez avec un nombre d’objets supérieurs à quatre. Votre cerveau devra se mettre en marche et compter.

Je vais devoir vous révéler une autre faiblesse de notre cerveau qui justifie totalement l’utilisation de la data visualization : notre cerveau est programmé pour distinguer facilement les lignes, les couleurs et les formes : ce sont des attributs « pré-attentifs » que notre cortex se plait à analyser, en revanche, repérer le chiffre « 5 » dans cette liste de nombre « 71345781012471061 » demandera un effort au cerveau. La reconnaissance des nombres n’étant pas un attribut « pré-attentif ».

« 71345781012471061 » D’une autre couleur, le chiffre « 5 » est repérable immédiatement. Voilà où veut en venir la data visualization, elle veut transformer l’information en attributs « pré-attentifs » pour la rendre accessible et compréhensible à moindre effort  car le cerveau humain est paresseux ; plutôt que de le solliciter encore et encore, la data visualization s’adapte à lui. Ce process permet de faire passer nombre de messages en toute simplicité.

Se lancer dans la data visualization

Pour se lancer dans la data visualization, rien de plus simple : Vous n’aurez besoin que de :

  • Un jeu de données à mettre en forme (données brutes, Excel, Access)
  • Un outil
  • Et surtout de la patience (pour la prise en main de l’outil et le traitement des données)

Il existe une foule d’outils pour faire de la data visualization, . La plupart de ces logiciels sont simples d’utilisation et permettent de mettre en forme de grandes quantités de données. Il existe trois types d’outils :

  • Les programmes « clés en mains » : redoutablement ergonomiques, ils ne nécessitent qu’un jeu de données, ce sont de simples logiciels à installer sur votre machine.
  • Les outils online : qui ne sont pas de logiciels mais des sites internet, ils offrent souvent moins de possibilités graphiques.
  • Les livrairies : beaucoup plus complexes et nécessitant une solide base en codage et en informatique, ces derniers sont naturellement beaucoup plus complets et offrent beaucoup de plus de possibilités.

Voici une liste d’outils généralistes et simples à utiliser :

Ne sous-estimez jamais les capacités de la data visualization : certains pensent même aujourd’hui, que c’est notre meilleur moyen de prédire le futur…

One thought on “La data visualization: entre statistiques, marketing et art graphique

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *