OWNI http://owni.fr News, Augmented Tue, 17 Sep 2013 12:04:49 +0000 http://wordpress.org/?v=2.9.2 fr hourly 1 Le bon mobile du chasseur de moustiques http://owni.fr/2012/10/23/bon-mobile-chasseur-moustiques/ http://owni.fr/2012/10/23/bon-mobile-chasseur-moustiques/#comments Tue, 23 Oct 2012 07:00:13 +0000 Nicolas Patte http://owni.fr/?p=123447

À ma connaissance, c’est la première fois qu’une telle masse de données, avec une telle précision, a été utilisée en prévalence de maladies infectieuses pour cartographier ces facteurs de risque et de mobilité. – Caroline Buckee

C’est sans doute, en effet, la première fois : la totalité des appels et des SMS générés par 15 millions de Kényans entre juin 2008 et juin 2009 a été analysée pour faire progresser la science. Quitte à semer le trouble sur l’épineuse question de la vie privée des utilisateurs.

Les migrations humaines contribuent à la propagation du paludisme, bien au-delà du rayon d’action du moustique Anopheles, son principal agent de transmission. Il s’agit d’un véritable casse-tête, notamment sur de vastes zones géographiques lorsque les ressources sont limitées – tant pour les soins que pour le contrôle des insectes.

Partant de l’observation selon laquelle il est impossible de cerner la façon dont cette maladie se propage sans des informations précises sur l’endroit où vivent les populations, une équipe de chercheurs américano-kényans a donc démontré, à travers cette étude menée en Afrique sub-saharienne, que les données enregistrées sur des téléphones portables pouvaient être utilisées dans le but d’identifier les régions à cibler en priorité dans le combat contre la maladie. L’étude a été publiée dans la revue Science parue le 12 octobre dernier.

L’Afrique piquée au vif

Selon le Rapport 2011 sur le paludisme dans le monde publié par l’OMS, les décès associés en 2010 au paludisme – sont encore estimés à près de 700 000, soit l’équivalent, pour cette année, de la disparition des habitants des communes de Lyon et de Lille réunies. Plus de 90% des décès se situent en Afrique, et 86% des victimes à travers le monde sont des enfants de moins de 5 ans. En guise d’espoir, des réductions de plus de 50% des cas signalés ont été enregistrées dans la moitié des 99 pays touchés par la transmission au cours de la première décennie de ce siècle. Principale raison : le nombre de moustiquaires imprégnées d’insecticide livrées par les fabricants dans cette région de l’Afrique a considérablement augmenté et est passé, entre 2004 et 2010, de 5,6 millions à 145 millions d’unités.

Toutefois, ces mesures sanitaires sont loin d’être suffisantes. Raison pour laquelle la recherche se penche aujourd’hui sur des voies alternatives pour endiguer le fléau. “Les programmes de lutte contre le paludisme ont des outils très efficaces pour prévenir la transmission aujourd’hui, mais malheureusement, les ressources pour leur mise en oeuvre sont très limitées”, selon Justin Cohen, conseiller technique principal de l’équipe de contrôle du paludisme du Clinton Health Access Initiative. La technique utilisée dans cette étude nous donne un moyen d’optimiser l’impact de nos ressources limitées.

Plus de 30 pays à travers le monde ont déclaré un objectif national d’élimination du paludisme, mais il est difficile d’éliminer la maladie quand de nouveaux cas sont constamment importés. – Andy Tatem

Exploration à la carte

Andy Tatem est professeur agrégé de géographie à l’Institut des Pathogènes Emergents de l’Université de Floride et co-auteur de l’étude. Il a fourni des cartes de population indispensables grâce à son projet AfriPop, qui utilise de l’imagerie satellitaire, des données de recensement et des cartes d’occupation du sol pour créer une cartographie détaillée de la répartition de la population de l’Afrique sub-saharienne.

Représentation en 3D d'une résolution spatiale à 100 mètres, version alpha, population d'Afrique de l'Est 2009 - afripop.org

Représentation en 3D d'une résolution spatiale à 100 mètres, version alpha, population d'Afrique de l'Est 2009 - afripop.org

Son équipe a ensuite utilisé les données fournies par une compagnie kényane de téléphonie mobile pour identifier les itinéraires les plus empruntés entre les différents coeurs de population, données où figurait une année pleine d’informations sur la localisation, les déplacements, la destination ou même les transferts d’argent de 14 816 521 utilisateurs de téléphones portables à travers le Kenya.

Professeur assistante en épidémiologie à Harvard et co-auteur de l’étude, Caroline Buckee s’est évidemment réjouie des perspectives offertes par la réunion du “big data” et de la cartographie des populations :

Déterminer où les gens vivent peut paraître trivial, mais c’est en fait une chose très difficile à faire en Afrique sub-saharienne. Des chercheurs avaient utilisé des GPS, des sondages et des flux de circulation sur les routes principales pour essayer de comprendre comment les gens se déplaçaient, mais ça nous fournissait des informations sur quelques centaines de personnes, tout au plus. Notre utilisation des informations issues de téléphones portables a apporté des milliards de données.

Carte de la pression clinique du Plasmodium falciparum en 2007 au Kenya - Malaria Atlas Project

Carte de la pression clinique du Plasmodium falciparum en 2007 au Kenya - Malaria Atlas Project

Et c’est bien grâce à ces données et à son travail de cartographie que les chercheurs d’Afripop ont réalisé un modèle de transmission du paludisme qui, appliqué à la population et ses mouvements, prédit les risques d’infection grâce à l’utilisation de la théorie mathématique des probabilités. Les résultats ont clairement montré que l’éruption du paludisme durant la période d’étude avait eu lieu dans la région du Lac Victoria et que la maladie s’était étendue vers l’est, en direction de la mégapole de Nairobi. Une cartographie qui démontre comment le paludisme est susceptible de se déplacer entre les différentes régions du Kenya. Et quelles régions, précisément ciblées par les équipes de lutte contre la maladie, produiraient le meilleur résultat au niveau national.

La question qui fâche

Reste une question – sinon la question qui taraude y compris les professionnels du mHealth. L’opérateur kényan Safaricom – qui appartient pour 60% à l’Etat et pour 40% à Vodafone – a-t-il demandé l’autorisation à ses 15 millions de clients pour permettre aux chercheurs majoritairement américains de fouiller, scruter, analyser un si grand nombre de données les concernant ? Rien n’est moins sûr. Contactée par Owni, la Fédération des Consommateurs Kényans (Cofek) dit avoir approché Safaricom à ce sujet sans jamais avoir reçu de réponse. “Du point de vue de la loi kényane, de telles études – qu’elles soient à but commercial ou de charité – utilisant des données de possesseurs de téléphones mobiles, sont inacceptablement intrusives”, nous a déclaré Stephen Mutoro, son secrétaire général. En ajoutant, fermement :

Nous espérons que ceux qui ont conduit cette étude, s’ils souhaitent être pris au sérieux, ressentiront le besoin d’éclaircir certains points mystérieux concernant la méthodologie employée, notamment si une autorisation en bonne et due forme de Safaricom et de la Commission des Communications du Kenya a été délivrée. Si, comme on le redoute grandement, il existe une brèche sur les questions de vie privée, alors les coupables se feront certainement taper sur les doigts, avec une énorme compensation financière pour les consommateurs. Nous attendons également que la Commission des Communications du Kenya [CCK] agira de manière proactive et demandera les informations nécessaires au sujet de la méthodologie employée pour cette étude.

Au Kenya, où 84% de la population est couverte par les réseaux mobiles, la pénétration du téléphone portable atteignait 42% en 2008 (source ITU), et les abonnés étaient plus de 18,5 millions (selon la CCK) en 2009 pour une population totale de 40 millions – soit plus de 46%. Les prévisions de l’époque indiquaient que ces chiffres seraient susceptibles de doubler en cinq ans ; plus de 25 millions en 2011, comme le montre le graphique ci-dessous.

Le Kenya est l’un des pays d’Afrique pionnier en matière de téléphonie mobile, ce qui s’explique notamment par la pauvreté du réseau cuivré. À titre d’exemple, le pays s’est doté depuis 2007 d’un système de paiement électronique innovant, M-Pesa, prévu au départ pour les transferts d’argent depuis l’international et devenu en quelques années un véritable système monétaire quasi-privé aux allures de potentielle monnaie parallèle. Ce qui rend la question de l’analyse des données de Safaricom d’autant plus sensible, vu que ces transactions financières sécurisées faisaient partie du lot de la “big data” passée entre les mains des chercheurs.

Dans ce contexte de baisse des revenus et de part de marché drastique, nous avons interrogé Safaricom afin de savoir dans quelles conditions ce “big data” (une année des données de 15 millions d’utilisateurs) avait été cédé à l’étude. Contrepartie financière ? Open Data ? Les clients “cobayes” ont-ils été prévenus ? Nous n’avons pas reçu de réponse à ce jour. Et nous espérons que l’opérateur ne se soit pas tout simplement endormi sur ses principes.

Le bénéfice du doute

Au centre de la modélisation de cette masse colossale de données, Amy Wesolowski, jeune étudiante de l’Université Carnegie Mellon, travaille avec Caroline Buckee. Elle a déjà été interpellé sur cette question [pdf, page 15] de vie privée au sujet des données traitées au Kenya. Sa position de chercheur est sensée, polie, de bon aloi, mais pas forcément très claire sur la méthodologie employée par l’étude s’agissant de la récupération des données. Nous avons cherché à la joindre, elle est restée muette à nos questionnements, et nous en resterons donc à cette réponse de 2010 :

Ces données peuvent être utilisées pour de mauvaises choses, mais nous essayons de rester du côté du bien.

Professeur au département de médecine préventive de l’Université Vanderbilt, William Schaffner ne dit pas autre chose :

Je me doute bien que certains seront nerveux à l’idée d’un “big brother” qui nous suivrait partout. Pour ma part, je suis bien plus excité par les possibilités de nous prévenir d’une sérieuse affection.

Au vu des différents éléments que nous avons en notre possession et du mutisme appliqué de l’opérateur, il est donc probable que les 15 millions de clients de Safaricom aient été des cobayes à leur insu. Mais que ces innombrables données étudiées, manipulées pour la science, l’aient été dans un état d’esprit qui laisse peu de place à la paranoïa. Pour preuve, sans doute, ce document de travail “Du fair use de données comportementales, agrégées et anonymes” [pdf] réalisé par Nathan Eagle, doux-dingue ingénieur-informaticien passionné de béhaviorisme et de bien commun, PDG de txteagle qui pige de temps à autre pour le MIT et Harvard. Il a participé à la rédaction de l’étude parue dans Nature. Il est marié à la ville à… Caroline Buckee. Et qui, en évoquant son travail à Harvard, le résume ainsi :

En fin de compte, notre programme de recherche consiste à déterminer comment nous pouvons utiliser ces données pour améliorer activement la vie de milliards de personnes qui génèrent ces données et améliorer les sociétés dans lesquelles ils vivent.

C’est beau comme une keynote de Google.


Photos par Lukas Hofstetter [CC-byncsa] remixée en une par Ophelia Noor pour Owni ; et Aaron Knox [CC-byncsa].

La représentation en 3D d’une résolution spatiale à 100 mètres, version alpha, population d’Afrique de l’Est 2009 est issue du site afripop.org. Les régions zoomées sont celles de Bujumbura (a), Kigali (b), Kampala(c), Nairobi (d) et Dar Es Salaam (e) ; la carte de la pression clinique du Plasmodium falciparum (parasite qui cause le paludisme) en 2007 au Kenya est issue du site Malaria Atlas Project.

]]>
http://owni.fr/2012/10/23/bon-mobile-chasseur-moustiques/feed/ 3
Les data en forme http://owni.fr/2012/09/04/les-data-en-forme-episode46-merci-marie/ http://owni.fr/2012/09/04/les-data-en-forme-episode46-merci-marie/#comments Tue, 04 Sep 2012 10:12:00 +0000 Paule d'Atha http://owni.fr/?p=119387 Owni prend la route avec l'ami Kerouac, se met plein de bulles data dans la tête, plonge dans des océans perpétuels un peu planants et ouvre bien grand les yeux sur ce fichu pétrole, source de tous nos maux passés et à venir.]]> Jack Kerouac a écrit son fameux roman Sur la route en trois semaines sur un rouleau de téléscripteur de 35 mètres de long. D’un trait. Sans marge ni paragraphe. C’est à partir de là que Stefanie Posavec (qui a déjà bossé avec David McCandless sur l’infographie “Droite/Gauche“, si si, vous connaissez sûrement) a eu l’idée de cette très jolie infographie.

La méthodologie est simple : chaque mot du bouquin vaut 0,85 millimètre et chaque nouvelle phrase est célébrée par un virage à droite. Tandis que chaque sujet est fêté par un changement de couleur. Le résultat est juste fascinant. On allait dire planant.

Walmart partout, Walmart nulle part

On reste chez l’Oncle Sam, en moins poétique, pour la prochaine dataviz qui s’appelle “l’invasion Walmart“, du nom de ce “petit” supermarché étasunien qui superdomine le paysage de superconsommation de l’autre côté de l’Atlantique. À l’origine, un journaliste économique qui met à disposition un jeu de données [en] avec la localisation géographique de tous les magasins de la marque aux USA avec leur date d’ouverture. Plusieurs projets ont pu voir le jour grâce à cette libération de données. Et notamment celle du biostatisticien Corey Chivers [en], qui a pondu avec le logiciel R une visualisation de l’évolution de l’ouverture des magasins Walmart à travers le temps et l’espace. Le résultat est plutôt… moche, mais l’important est l’intention et l’efficacité. La couche de beau peut (ou pas, avis aux gmappeurs) venir dans un second temps.

Titi et le beau Romney

Ouvrons à présent la minute “Elections US” (ça va être data-tendu jusqu’en novembre, autant se le dire). Facebook et CNN s’associent pour délivrer leurs “aperçus” de l’élection en dressant une application interactive rouge et bleue [en] qui suit la popularité des candidats Obama et Romney (ainsi que leur vice-président) sur le plus social des réseaux. Le dispositif n’est pas révolutionnaire (cela dit, on est sur CNN, donc le risque de révolution était faible), mais il est proprement réalisé. La vérité, si c’est sur Facebook que la Maison Blanche se joue… ça va être serré.

Des bulles des bulles des bulles

Toujours aux States. Les élections vues par le New York Times, avec cette très belle dataviz décrivant “le chemin qui se construit vers la victoire” grâce à une série d’hypothèses en bulles [en] : chaque état est représenté par une couleur (bleue pour Obama, rouge pour Romney) de différente intensité selon la “solidité” de l’électorat vis-à-vis du candidat. Selon les scénarios proposés, on découvre la situation des deux partis au regard des possibilités : où sont les états qui peuvent faire pencher la balance, quel a été le comportement de ces états-clés il y a 4 ans, etc. Une belle brochette de “au cas où” qui permet d’anticiper les enjeux de manière très claire. Bref, du gros NYTimes comme on l’aime.

Autre exercice délicieux proposé par le roi du datajournalisme, cette couverture de la convention républicaine par le biais d’une analyse lexicale [en] joliment rendue via… des bulles, ici aussi.

Le principe : récupérer le verbatim de tous les discours de la fiesta éléphantesque chez Federal News Service et mettre en scène les mentions des différents concepts, thèmes, personnalités sous forme d’une visualisation épurée. Le nuage de mots-clés en version interactive, où le clic sur la bulle affiche l’ensemble des mentions situées dans l’ensemble des discours. Du bel œuvre – qui ravira même les enfants, les bulles pouvant être déplacées.

Pour en finir avec les bulles, une petite dernière pour la route, cette infographie sur les Jeux paralympiques [en] concoctée par The Telegraph. Techniquement moins impressionnante que les deux premières visualisations (on pourra notamment regretter l’emploi du Flash), elle part toutefois d’une bonne intention de vouloir offrir une lecture synthétique de l’information. Ce qui est quand même ce qu’on demande prioritairement à ce type de prestation. L’application est par ailleurs mise à jour toutes les 5 minutes.

Apparemment le courant passe

La NASA, ce n’est pas que des photos de Mars en haute résolution ou des clichés photoshopés de l’autre bout de l’univers. Un des nombreux satellites en orbite est un pourvoyeur infatigable de big data, traitées et mise en animation par le Studio de Visualisation Scientifique (SVS).

Et, parmi leurs nombreux projets, celui – fascinant – répondant au petit nom de ECCO pour Estimation de la Circulation et du Climat des Océans, dont on vous a déjà parlé en avril. En un mot : comprendre comment fonctionnent les courants marins grâce à des modèles mathématiques bien costaud et un rendu tout autant trapu. Le résutat : le (petit) film Perpetual Ocean, hypnotisant.

Pour compléter cette mise en joie, on pourra désormais mieux appréhender les tenants et les aboutissants du projet grâce à l’entretien du patron su SVS [en] réalisée par Mashable.

Pas d’inquiétude, on a PLEIN de pétrole

Et on va rester dans le film d’animation pour refermer cette veille avec le petit travail data-engagé [en] de l’institut PostCarbon qui s’insurge à sa manière contre une forme de négation du peak oil (le pic pétrolier) qu’il considère comme de la propagande consumériste. Et qu’il tente – avec ses moyens – de contrer en usant de son indéniable talent de narration. On se laisse donc envoûter par ce petit objet drôlement bien fait, même si ça cause anglais.

Lecture de la rentrée

Chez Owni et principalement au pôle “data”, on aime beaucoup la cartographie. On ne saurait donc mieux vous conseiller de lire l’interview de Gaël Musquet, président d’OpenStreetMap France chez nos amis de Data Publica. Un intéressant rappel de l’origine du projet, des difficultés rencontrées, des relations avec les gros acteurs de la carto, de l’avenir d’OSM. Palpitant.

Et enfin – après c’est fini, promis – ce 46e épisode des Data en forme est fortement dédicacé à la sémillante Marie Coussin (#FF @mariecoussin) qui brilla de mille feux durant 18 mois sur le journalisme de données à la sauce Owni, et qui poursuit désormais sa route à elle sur d’autres jolies sinuosités. So Long, and Thanks for All the Fish.

Bonne data-semaine à tous !


Tous les épisodes précédents des Data en forme.
Paulette sur Twitter | Paulette sur Facebook | Paulette sur Pinterest

]]>
http://owni.fr/2012/09/04/les-data-en-forme-episode46-merci-marie/feed/ 15
Les Data en forme http://owni.fr/2012/01/18/les-data-en-forme-episode-16/ http://owni.fr/2012/01/18/les-data-en-forme-episode-16/#comments Wed, 18 Jan 2012 10:00:42 +0000 Paule d'Atha http://owni.fr/?p=94238 Better World Flux [en] a vu le jour à l’occasion d’un concours d’applications organisé par la Banque mondiale, afin de promouvoir les objectifs du millénaire pour le développement. Au menu de cette compétition : permettre au grand public, avec l’aide de développeurs, de graphistes et de journalistes compétents, de s’emparer des nombreuses données hébergées sur les serveurs de la Banque mondiale pour comprendre les mécanismes et les histoires qui y sont enfouies. Better World Flux veut être une “magnifique visualisation interactive” (objectif amplement atteint) informant sur ce qui “compte réellement dans la vie”. Il est ainsi possible de comparer en couleurs des indicateurs tels que le bonheur, l’espérance de vie, la longueur de la scolarité et tout ce qui permet de produire une photographie de l’état du monde et de la qualité de la vie dans les pays qui le composent, ainsi que l’évolution de ces indicateurs au cours des 50 dernières années.

Cliquer ici pour voir la vidéo.

Le cinéma au scalpel

Cinemetrics [en] est une splendide application, pleine de sens et de pertinence, qui mesure et visualise la data au cinéma, permettant de révéler les caractéristiques des films et de leur créer une sorte d’empreinte digitale… visuelle. La structure de montage, la colorimétrie, les dialogues et les mouvements sont extraits, analysés et transformés en représentations graphiques afin que le film puisse être appréhendé dans son ensemble en un seul coup d’œil, voire comparé avec un autre film sur le même écran. Le résultat, qu’on vous a déjà passé cet été mais qu’on remet ici parce qu’on aime bien le concept de #oldlink, est proprement fascinant et immanquable pour les amateurs du 7e art. La majorité du code est disponible sur Github.

Cliquer ici pour voir la vidéo.

Voyages et bouts de ficelles

Lichtreise [de] est un projet de Christopher Pietsch s’inscrivant dans le cadre d’un cours interactif au sein de l’Université des Sciences appliquées de Potsdam. Le but : concevoir une visualisation qui affiche (au minimum) sept voyages sélectionnés de la vie de l’étudiant. La conception et le résultat final font l’objet d’une série de très jolies photographies de ce projet très “do it yourself“.

Hack your life or be a user – Pietsch


Aiguilles et bottes de foin

Citeology [en] est un projet extraordinaire coordonné par Justin Matejka au sein du laboratoire de recherche des fameux logiciels de modélisation Autodesk/AutoCAD. Ce projet Citeology permet de visualiser les relations entre des publications selon les citations qu’elles utilisent. Pour l’exercice, plus de 3 500 documents portant sur les interactions humains-ordinateurs et publiés au cours des 30 dernières années ont été passés à la moulinette data pour créer cette application (nécessite le plug-in Java) qui fait ressortir près de 12 000 citations croisées au sein de la collection. Le résultat est tout simplement époustouflant et ouvre la porte à des pistes de visualisations réellement innovantes, notamment dans le domaine émergent de la “big data“.

Ceci n’est pas un jeu

Candidate Match Game [en] est l’une des premières (et sans doute très nombreuses) applications ludiques autour de la présidentielle américaine de l’automne prochain. Développée par USA Today, cette application fonctionne selon un principe extrêmement simple : vous placez un curseur sur des grands thèmes de société selon l’importance que vous leur accordez et répondez ensuite à des questions concernant ces thèmes en sélectionnant la proposition qui convient le mieux à vos convictions. Au terme de ce questionnaire, le jeu vous annonce le nom des candidats dont les programmes politiques ou la vision globale se trouve à la plus grande proximité de votre propre vision de la société. Cette app est évidemment à l’entrée d’un long tunnel que nous allons emprunter, et nous reviendrons régulièrement sur ce type d’initiatives – qu’elles aient lieu en France ou aux États-Unis.

Un gazon de toutes les couleurs

Diversity in the Premier League est une visualisation sur le championnat anglais de football, motivée par “l’affaire Suarez” qui agita la fin du mois de décembre dans le monde du ballon rond – le joueur du club de Liverpool ayant été accusé par l’arrière français Patrice Evra d’avoir proféré de nombreuses injures raciales en plein match. Partant de ce navrant fait divers, Josh Ritchie a souhaité mettre en valeur la diversité de nationalités au sein de l’élite du football anglais au travers de cette dataviz très réussie.

Love, etc

Pour clore ce 16e épisode des Data en forme, des nouvelles de deux “data-artistes” parmi ceux dont nous suivons régulièrement le flux (YouTube et Flickr). Parce que ce monde n’est pas un monde de brutes mais plutôt paix, amour et beauté.

Une excellente data-semaine à tou(te)s :)

Eric Fischer – World travel and communications recorded on Twitter


Stephen Malinowski – Claude Debussy : Doctor Gradus ad Parnassum

Cliquer ici pour voir la vidéo.

]]>
http://owni.fr/2012/01/18/les-data-en-forme-episode-16/feed/ 2
Big Data : faire du sens à grande échelle http://owni.fr/2011/01/13/big-data-faire-du-sens-a-grande-echelle/ http://owni.fr/2011/01/13/big-data-faire-du-sens-a-grande-echelle/#comments Thu, 13 Jan 2011 16:10:15 +0000 Henri Verdier http://owni.fr/?p=42264 D’un  récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique.

En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003.

Ces données ne sont pas toutes des œuvres. Outre les blogs, les textes, les vidéos (35 millions sont regardées sur Youtube chaque minute) ou le partage de musique, il y a désormais les microconversations, les applications géolocalisées, la production de données personnelles, la mise en ligne de données publiques, les interactions de l’Internet des objets…

Naviguer dans ce nouveau web demande une nouvelle science. C’est comme passer d’une navigation fluviale à une plongée en eaux profondes. Mobilis in mobile.

Qu’est-ce qui change avec les big data ?

L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. Au fond, quelle est la différence entre Wikileaks et le Canard Enchaîné ? On voit bien qu’elle n’est pas seulement de volume. 250.000 documents d’un coup, ce n’est plus tout à fait les 30 rumeurs de la page 2 du Canard. Ça ne se traite pas pareil. Ça ne s’exploite pas pareil. Et visiblement, ça ne se combat ni ne se défend pas de la même manière. On sent bien que l’appareil juridique, l’appareil de communication et les stratégies de pouvoir adaptés au Canard Enchaîné ne passent pas l’échelle. Le web était globalement transactionnel. Des gens, des objets, des machines échangeaient. Des données, des conversations, des protocoles. De un à un, ou de beaucoup à beaucoup, on restait dans la transaction. Le web, aujourd’hui, produit aujourd’hui des masses de données, des masses de sens, qui échappent complètement aux principaux acteurs. Y compris à ceux qui déversent ces données. Y compris à ceux qui tentent de se les approprier. On sent bien que les questions aujourd’hui posées ne sont pas tout à fait à l’échelle. Tout savoir sur un individu ? Mieux cibler un marketing ? So what ? On est au bord de découvrir la thermodynamique et les gens continuent à regarder la trajectoire des molécules.

On sent bien que l’on est tout près d’un phénomène d’émergence. L’émergence est bien souvent une notion pseudo-mystique, mais c’est en fait une réalité. Lorsque des propriétés nouvelles apparaissent à un niveau d’organisation supérieur. Les propriétés du cerveau ne sont pas inclues dans le neurone. En tous cas, il est impossible de les anticiper simplement en disséquant un neurone. Ce sont des propriétés propres au système de neurones. L’émergence du big data sera de même nature. Il ne suffit pas de prolonger ce que nous faisons avec les données d’aujourd’hui pour anticiper ce que sera l’exploitation des données du futur.

Les outils sont-ils prêts ?

Ce qui est fascinant avec la Silicon Valley, c’est qu’une telle perspective y devient immédiatement un carburant pour la recherche et la création.

Le professeur Michaël Franklin, de Berckeley, a par exemple obtenu des financements importants de Google, Amazon, IBM, mais aussi SAP ou la Darpa (eh oui) pour créer son laboratoire Algorithm, Machine, People. Son programme de travail est simple : rien n’est prêt pour faire face à ce déluge de données. Les infrastructures profondes du réseau ne passeront pas l’échelle, la logique de bases de données n’est plus adaptée, les algorithmiques utilisées par l’informatique ne sont pas assez parallèles. Mais surtout, nous ne savons pas encore créer du sens à la bonne échelle. Donner cohérence, et valeur, aux informations, ou plutôt aux histoires dissimulées dans ces masses de données est encore une science balbutiante. Transmettre ce sens au plus large public est encore hors de portée.

Kul Wadhwa, le directeur de la Wikimedia Foundation, m’a raconté comment il réfléchit à la prochaine évolution de Wikipedia, d’un Wikipédia qui ne serait plus seulement une vaste encyclopédie, mais un immense système d’information, interfacé à toutes sortes d’API, utilisable par toutes sortes de services

Roger Magoulas, directeur de recherche chez O’Reilly pense tout simplement que les big data vont être le sujet le plus sexy des dix prochaines années. Et qu’il va nous falloir forger un langage commun entre les données, le quantitatif et le storytelling.
Ce nouveau rêve Californien est holistique. Il organise la convergence de toutes sortes de travaux : datavisualisation, algorithmique parallèle, bases de données, Mapreduce, Machine Learning, sécurité et vie privée, datacenter, statistiques, analyse en langage naturel, sémantique. Il mobilise, et bouleverse, le journalisme, la communication, les microsimulations, les politiques publiques, l’urbanisme… Il est notamment stimulé par l’ambition d’un traitement en temps réel.

Il commence à avoir des résultats concrets. On ne parle plus tant serveurs et bases de données, ni même ERP, que MapreduceNoSQLGraphDatabaseHadoop. On voit naître un marché de ces bases de données d’un nouveau genre, encore immature mais dont les fleurons sont Neo4J, Allegrograph, HypergraphDB.

Big data, big business ?

Naturellement, une telle bascule induit également des transformations stratégiques majeures. Pour être honnête, on sent bien que le business n’est pas encore tout à fait au rendez-vous. Si making sense at scale est encore un problème ouvert, making money at scale est encore plus problématique. Sauf que, vue la vitesse d’évolution du web, on peut  gager sans crainte qu’il ne faudra que quelques années avant que ces nouveaux business ne voient le jour. Il n’en demeure pas moins que la bataille industrielle a commencé. Et notamment la bataille pour la captation monopolistique de ces données. Ce n’est pas un hasard si Tim Wu, professeur à Columbia, « gauchiste » au vu des Américains, vient de sortir un nouveau livre consacré à ces nouveaux monopoles. Nouveaux, car d’un genre nouveau. Google, Facebook, Twitter littéralement parlant, ne bloquent aucun marché. Ils sont, d’un certain point de vue, non rivaux du point de vue du marché des données personnelles. Ils ne monopolisent par ailleurs aucun marché, puisqu’ils créent les marchés au fur et à mesure de leur croissance. Et pourtant, ils sont visiblement engagés dans une lutte à mort pour la captation, le contrôle et l’exploitation de masses de données personnelles. Et comme le dit Tim Wu, ils créent de ce fait de nouvelles stratégies monopolistiques. Car posséder les données personnelles de 500 millions d’individus, ce n’est plus avoir un fichier illicite sur la clientèle de sa petite boutique. On est entré dans un ordre nouveau. On est dans les big data. Tim Wu propose d’imposer, mondialement, une séparation drastique entre les opérateurs d’infrastructures profondes, les fournisseurs d’accès Internet et les fournisseurs de contenus et services. C’est une idée qui mérite examen.

En même temps, je me demande si les nouveaux démiurges ne seront pas très vite dépassés par leurs créatures. Les données prolifèrent à une telle vitesse ; on apprend tellement vite à les interpréter. J’ai ainsi rencontré une start-up, Sense Network, fondée par des anciens de Columbia, qui réussit, avec la seule trace de déplacement des téléphones portables (d’obtention facile aux Etats-Unis), à prédire votre « lifestyle », à vous catégoriser et à prédire vos goûts, vos habitudes et même vos risques de santé (diabète, par exemple).

A quoi leur servira le monopole si l’on sait reconstituer le sens avec les moindres traces ?

Article initialement publié sur le blog de Henri Verdier

>> photos flickr CC Tom Woodwar ;

]]>
http://owni.fr/2011/01/13/big-data-faire-du-sens-a-grande-echelle/feed/ 13