Les Big Data de A à Z

Les Big Data sont partout. Certains craignent un nouveau Big Brother, d'autres célèbrent les étonnantes possibilités ouvertes dans des domaines aussi variés que le marketing, l'épidémiologie ou la gestion urbaine, et le gourou du Web, Chris Anderson, prophétise une science sans théorie. Une révolte ? Non, sire : une révolution. Mais, au fait, de quoi parle-t-on ?

Entretien avec Henri Verdier, Président de Cap Digital, réalisé par notre partenaire ParisTech Review.

ParisTech Review. En l’espace de deux ou trois ans, le thème des Big Data s’est imposé dans l’espace public, suscitant enthousiasme et réticences… sans qu’on sache toujours précisément de quoi il s’agit. Pouvez-vous nous l’expliquer rapidement ?

Henri Verdier. Cette confusion n’a rien de surprenant, car non seulement c’est un thème récent mais, surtout, on assiste à un affrontement politique et économique autour de sa définition. L’expression « Big Data » renvoie à au moins trois phénomènes. Selon une acception étroite, elle désigne de nouvelles technologies informatiques dans le domaine du traitement de données massives. Selon une acception plus large, elle désigne la transformation économique et sociale induite par ces technologies. Enfin, certains analystes en font une rupture épistémologique, avec le passage des méthodes hypothético-déductives sur lesquelles s’est édifiée la science moderne à une logique inductive, très différente.

Par ailleurs, et cela ajoute sans doute à la confusion, la vogue des Big Data recouvre d’énormes intérêts. Par exemple, c’est sur ce champ qu’IBM a construit sa résurrection, et d’autres géants comme Google et Facebook sont également très engagés. C’est un domaine qui mobilise l’attention des consultants et des prestataires de service, et tout ce petit monde a tendance à survaloriser les effets des technologies qu’il essaie de vendre.

Est-ce à dire qu’on n’aurait affaire qu’à une bulle, à un effet de mode ?

Certainement pas. Mais, précisément parce qu’il s’agit d’une évolution significative, il faut garder la tête froide, et examiner avec lucidité ce qui se joue sous nos yeux. Commençons par le commencement : les technologies en jeu.

Le premier phénomène est l’explosion de la masse des données produites, avec des serveurs qui stockent aujourd’hui une quantité d’information inimaginable il y a encore quelques années (l’information accessible au format numérique est passée de 193 petabytes en 1996, l’équivalent de tous les livres jusque-là imprimés par l’Humanité, à 2,7 zetabytes, soit un million de fois plus, en 2012). Cette explosion est rendue possible par les progrès de la technique, mais elle est aussi nourrie par les nouveaux usages. Vous et moi, chacun, chaque jour, produisons et échangeons de plus en plus de messages : tweets, posts, commentaires, SMS, mails, etc. Avec la vogue du « quantified self », qui consiste à collecter des données personnelles et à les partager, la production de données brutes est même une nouvelle manière d’être au monde. Mais nous produisons aussi des données à notre insu, en achetant un produit dans un supermarché, en cliquant sur un article de journal, et nous laissant géolocaliser par notre smartphone. Et, de plus en plus, l’Internet des objets va contribuer à produire, ou à nous faire produire, de nouvelles masses de données : les capteurs de bruits, de vitesse, contribueront à transformer l’empreinte de nos corps – comme aujourd’hui nos conversations sur Facebook – en données brutes.

La deuxième nouveauté, c’est la capacité nouvelle à traiter ces données. D’une certaine façon, ce n’est pas la quantité qui définit les Big Data, mais plutôt un certain rapport aux données, une certaine façon de jouer avec elles. On sait de mieux en mieux les gérer, les mesurer, les interpréter, et ce d’une manière de moins en moins onéreuse. Cette informatique « pas chère » permet déjà l’arrivée de nouveaux acteurs : plus besoin d’être le CEA pour manipuler des téraoctets.

On assiste même aujourd’hui au développement, dans la Silicon Valley, d’une informatique (hardware) du Big Data : certains acteurs comme Facebook, SAP, IBM ou encore Goldman Sachs se sont organisés et ils ont financé des programmes pour apprendre à gérer d’énormes masses de données. L’un des enjeux, pour eux, est évidemment de faire face à Google, qui s’affirme comme l’acteur par excellence du traitement des Big Data. Les programmes en question, ce sont par exemple le mouvement MapReduce, dans lequel Google est également engagé. Il s’agit d’effectuer des calculs parallèles à partir de gros volumes de données. Il y a là, en termes de programmation et d’architecture système, une nouvelle philosophie : on ne cherche pas forcément à développer des algorithmes très sophistiqués ou à utiliser des machines très puissantes, mais simplement à tirer profit des puissances de calcul disponibles, en faisant effectuer la même opération des millions de fois par des machines montées en parallèle. Par exemple, on utilisera un millier de serveurs présents dans le cloud d’Amazon. En termes de software, ce n’est pas forcément très impressionnant, mais les résultats sont là.

Ces progrès technologiques ne concernent pas seulement la volumétrie. On dit souvent qu’ils travaillent sur les « trois V» : variété, vélocité, volume. L’informatique de Big Data se renouvelle tous les jours pour traiter des données en masse, souvent très peu structurées, en des temps record (comme on le voit, par exemple, avec le trading à haute fréquence).

La performance concerne donc à la fois la quantité de données traitées, la diversité des sources et la recherche d’une réponse en temps réel. Cette nouvelle puissance disponible fait naître de nouvelles stratégies de traitement des données. On apprend à manipuler des distributions complètes, à jouer sur les probabilités, à traduire les problèmes en systèmes de décision automatique, à construire de nouvelles visualisations à de nouvelles règles d’interaction avec les données.

On observe ainsi l’émergence d’une nouvelle école informatique, une nouvelle façon de programmer, en partie inspirée de la culture hacker. Celle-ci s’est focalisée sur le matériel dans les années 1970, sur les logiciels dans les années 1980-90 avec l’open source, sur les contenus dans les années 2000 avec les logiques de partage, et se préoccupe désormais des données. On a ainsi pu proclamer que « Data is the new code », pour souligner que désormais, ce n’est pas la donnée qui est une variable aléatoire, mais le code qui doit s’organiser autour d’elle…

Une nouvelle informatique, ou plus précisément une nouvelle philosophie de l’informatique, est-ce que cela suppose des professionnels formés différemment ?

Oui, on voit aujourd’hui émerger une profession : les datascientists, qu’on pourrait définir ainsi : ce sont d’abord de bons mathématiciens et notamment statisticiens ; ce sont ensuite de bons informaticiens et si possibles des « bidouilleurs », capables par exemple d’installer trois machines virtuelles sur un même serveur ; ensuite, et c’est un point essentiel, ils sont capables de fournir du conseil stratégique, car la plupart des organisations sont aujourd’hui prises au dépourvu par les Big Data. Il est possible que ces fonctions se séparent à nouveau dans le futur, mais aujourd’hui, on a besoin de ces trois compétences.

A ces trois compétences de base, j’ajouterais peut-être la datavisualisation : être capable de donner forme, et une forme lisible, aux calculs effectués, est absolument capital si l’on veut que les Big Data servent à quelque chose.

Justement, à quoi cela sert-il ? Où sont les applications de ces nouveaux savoir-faire ?

D’une façon générale, la production et la captation de données créent de la valeur. La question se pose évidemment de savoir où et comment.

Sur certains sujets, les applications existent déjà : on pense au marketing, bien sûr, avec le ciblage publicitaire qui est rendu possible par le traitement des nuages de données produites par chaque internaute, ou encore à la personnalisation pratiquée chez Amazon, qui est capable de vous proposer des livres ou des films étonnamment proches de vos aspirations. Dans un avenir plus si lointain on pourra envisager, comme dans le film Minority Report, la personnalisation en temps réel de l’affichage des panneaux publicitaires qui seront capables de reconnaître les catégories de personnes les approchant. Minority Report, après tout, a porté à l’écran des innovations qui étaient développées au Medialab du MIT.

Mais ce ne sont là que des exemples évidents, et les Big Data autorisent bien d’autres avancées. Elles permettent, par exemple, à de nombreux acteurs d’analyser des problèmes complexes et tenant compte de la variabilité des cas, au lieu de raisonner sur le « client moyen », le « patient moyen » ou « l’électeur moyen »…

Autre avancée, tout ce qui a trait au temps réel, avec la resynchronisation/optimisation des systèmes. C’est l’exemple du trafic routier pour lequel la meilleure application que je connaisse est Waze (de l’anglais ways). Il s’agit d’une application mobile de navigation qui permet aux conducteurs de construire et d’utiliser des cartes, des mises à jour du trafic en temps réel et la navigation étape par étape pour améliorer leur trajet quotidien. Dans un autre domaine, le trading haute fréquence est également une application des Big Data. Il ne s’agit pas seulement de multiplier les opérations financières, mais aussi de doubler les autres opérateurs, en réagissant à leurs opérations et en les répliquant dans des canaux de communication plus efficaces.

On pourrait citer aussi le domaine émergent de la feedback economy, fondée sur des itérations constantes qui permettent d’optimiser l’offre – aussi bien en termes de stocks disponibles que de tarifs. Ou encore les assistants personnels comme SIRI, que vous formez vous-même. Ou encore des applications comme Dr. Watson, qui fournissent une aide au diagnostic à des équipes hospitalières de pointe.

Précisément, une application comme Dr. Watson pose le problème de la fiabilité des interprétations construites à partir des Big Data.

Nous sommes d’accord, il s’agit simplement dans ce cas d’une aide au diagnostic, qui ne remplace pas une visite du médecin. Mais on aurait tort de s’arrêter à ce constat. Il y a des situations où l’on n’a pas de données fiables. L’ONU, par exemple, reçoit des données économiques datées de plusieurs années, et parfois même faussées. En épidémiologie, on travaille sur des données qui coûtent cher et sont très longues à produire. Or on peut suivre une épidémie de grippe, ou de dengue, avec les requêtes sur Google. Monitorer une épidémie en temps réel avec des données gratuites, c’est vraiment utile ! Ce que produisent les Big Data, à partir de sources souvent imparfaites ou de données incomplètes, ce n’est pas une information absolument certaine, garantie, fiable. Mais, curieusement, du fait de la loi des grands nombres, c’est souvent une donnée efficace.

Mais que vaut l’interprétation de ces phénomènes ? Parmi les débats récurrents autour des Big Data, il y a l’idée d’une révolution scientifique, avec notamment l’horizon de cette « science sans théorie » prophétisée par Chris Anderson.

Là encore, il faut opérer quelques distinctions. Il se passe incontestablement quelque chose d’important dans le domaine des sciences humaines et notamment le marketing ou la sociologie, qui n’ont jamais eu la prétention de faire émerger des lois intangibles. Dans ces disciplines, les Big Data amènent non seulement une capacité plus grande à traiter des données, mais aussi une forme de libération dans la façon de regrouper ces données. Quand par exemple on cartographie 30 millions de blogs, des catégories sociologiques apparaissent, auxquelles le sociologue n’aurait pas pensé. Bref, des catégories sociologiques issues de l’observation empirique peuvent être largement plus pertinentes que certaines catégories antérieures.

C’est ce qui a amené Chris Anderson, l’éditorialiste du magazine Wired, à formuler son idée d’une science « sans théorie », faisant usage d’une logique inductive et non plus déductive, où l’on verrait la vérité surgir presque spontanément des données. Et il est vrai qu’avec le « machine learning », on arrive à des situations où l’on sait prédire, avec des équations que l’on ne connaît pas vraiment… des résultats que l’on ne sait pas expliquer ! Je pense par exemple à une étude réalisée par IBM dans une maternité de Toronto qui permet, à partir d’historiques de paramètres biologiques de milliers ou de dizaines de milliers de nourrissons, de prédire, 24 heures avant n’importe quel pédiatre, quels bébés vont développer des infections néo-natales. Dans cet exemple, il y a une prévision très utile, vitale même, mais pas de théorie sous-jacente. Cela ne veut pas dire que cela dispense de comprendre : les statisticiens insistent sur le fait qu’un travail sérieux sur les Big Data impose de comprendre les processus de génération des données et leurs évolutions, et que les manipulations de données reposent toujours sur des inférences causales qui doivent être explicitées.

Les autorités publiques, qui disposent souvent de larges bases statistiques, se sont-elles emparé du sujet ?

Il y a incontestablement un intérêt, et des initiatives remarquables. Une ville comme New-York, par exemple, a mis une petite équipe de datascientists au travail, et ils se sont montrés capables d’extraire des indications précises des masses de données publiques dont disposait la ville. Par exemple, ils ont repéré les quartiers et les rues où un incendie avait plus de chances de se produire, ce qui a permis de flécher les visites de sécurité et de faire baisser le nombre d’incendies. Ils ont aussi développé un algorithme permettant de repérer, à partie des déclarations d’impôts, la fraude fiscale – ou, plus précisément, la plus forte probabilité, pour une déclaration donnée, d’être frauduleuse. Et cela marche !

Les Nations unies, avec le programme Global Pulse, s’efforcent de mettre les Big Data au service du développement humain : l’analyse des données des communications mobiles et réseaux sociaux permet de repérer plus rapidement que les indicateurs habituels, les tensions sur les prix de denrées alimentaires, le déclenchement et la progression d’épidémies, les fluctuations du marché de l’emploi, etc.

D’où le côté « Big Brother » que l’on associe parfois aux Big Data ?

Les exemples précédents utilisaient des données statistiques et non pas personnelles. Mais il est certain que les développements des Big Data sont à mettre en regard de l’obsession contemporaine pour la transparence, et de la naïveté qui l’accompagne souvent, ce qui peut paraître inquiétant. Douglas Klein, de la chaîne de librairie Barnes&Noble, affirmait ainsi que « privacy is the elephant in the room », laissant entendre que nombre d’acteurs privés américains s’attendent à une vague de réglementation inéluctable, effet d’une révolte citoyenne.

Personnellement, je pense que nous avons un certain nombre d’enjeux bien plus graves que la vie privée au sens strict, qui sera protégée d’une manière ou d’une autre. J’observerai ainsi, à la suite de Daniel Kaplan, que si on s’inquiète souvent des aspects liés à la confidentialité des données, il y a un autre sujet qui est tout aussi important, et sur lequel on s’est peu penché : la décision automatique. C’est par exemple l’ensemble des opérations par lesquelles, dans un futur pas si éloigné, un marchand en ligne peut fixer le prix d’un objet ou d’un service, non pas en fonction de l’ensemble des acheteurs, mais en fonction du prix que vous, et vous précisément, êtes prêt à payer. On peut parfaitement imaginer que le site soit capable de tracer votre profil d’acheteur, et de vous proposer un prix en fonction de votre profil. Pas n’importe quel prix, bien sûr, mais le plus élevé que vous êtes prêt à payer. Il est parfaitement possible que ce type de profilage soit en passe de devenir la base de la relation, dans de nombreux environnements. Et cela, c’est inquiétant.

Pour en revenir aux données publiques et à leur utilisation, elle ne se limite pas à un usage administratif. Les développements les plus intéressants se produisent parfois quand la sphère publique renonce à son monopole sur certaines données et organise la possibilité, pour d’autres acteurs, de travailler dessus. Le GPS, développé au départ par l’armée américaine, est un exemple désormais classique de cette stratégie.

Le mouvement de l’open data, l’ouverture des données publiques, est lui aussi un enjeu majeur. Cela marche dans les deux sens : l’Open Government Summit organisé depuis 2009 a montré qu’on pouvait importer dans la sphère publique des règles et des méthodes qui permettent de développer de nouveaux services, en créant de la valeur sociale et économique ; symétriquement, pour accélérer le développement de ces services, la sphère publique a tout intérêt à mettre à disposition du public certaines des données dont elles dispose. La Ville de Paris l’a compris, comme d’autres à travers le monde.

Mais on peut aller plus loin. Un développement récent est ainsi ce que l’on nomme « smart disclosure » : une stratégie consistant à « rendre des données » à ceux qui les produisent, de façon à ce qu’ils en bénéficient. Le meilleur exemple à mon sens est le Blue Button des vétérans américains. Quand ils utilisent certains services en ligne, ils appuient sur ce bouton et le service se personnalise, devenant ainsi plus efficace. Notons au passage que dans cet exemple, on ne « rend » pas vraiment la donnée au citoyen mais on l’autorise à la transmettre à qui bon lui semble.

Il y a là un agenda politique possible, dont on peut pour finir repérer rapidement les enjeux. Tout d’abord, utiliser les possibilités des Big Data pour mesurer rapidement l’efficacité des politiques publiques, et pour l’améliorer. Ensuite, ouvrir les données publiques les plus pertinentes, voire les cibler de façon à mobiliser les acteurs privés et sociaux sur des stratégies publiques. Et faire du smart disclosure de façon à offrir aux citoyens de nouveaux services.

BIO – Henri Verdier
Born in 1968, Henri Verdier graduated in biology from Ecole Normale Supérieure. He also holds degrees in philosophy and political sociology. In 1995 he created Cred-M (later Odile Jacob Multimédia), managing it till 2007. Cred-M focused on digital education projects, working with scientists such as Nobel Prize winner Georges Charpak. In 2007 Henri was hired by Lagardère Active as a director of innovation, before being recruited by Institut Telecom as a director of prospective. In 2010 he came back to the start-up world by cofounding MFG-R&D. Since 2009 he also chairs Cap Digital, a business cluster for digital content. He is a member of Institut Télécom Scientific Council and of several prospective committees (Arcep, Cnil, Ecole des Gobelins).
He is the author, with Nicolas Colin, of L’Age de la multitude (Armand Colin, 2012). An interview with Nicolas and Henri has been published on ParisTech Review: “The Economics of the Multitude.”

Ce contenu est issu de ParisTech Review où il a été publié à l’origine sous le titre » Les Big Data de A à Z « .

Nous vous invitons à vous abonner gratuitement à ParisTech Review.