Et si les secrets de la réussite des géants du Web, les Google, Facebook, Twitter ou autres Amazon trouvaient leur origine au XVIIIe siècle à Königsberg, en Allemagne ? A cette époque un mathématicien, Leonhard Euler, donna en effet naissance à une discipline devenue pilier de ces sites Internet : la théorie des graphes. Le problème d'Euler était de parcourir les quatre quartiers de sa ville sans emprunter deux fois l'un des sept ponts les reliant. Soit, sur un dessin, le fameux graphe, quatre sommets (ou noeuds) reliés par sept arêtes (ou liens).
Les problèmes des vedettes du Web sont conceptuellement semblables, mais à une tout autre échelle : des milliards de "quartiers" (les pages Web, les profils, les clients...) et des milliards de "ponts" (les liens html, les "amis", les achats... reliant tout ce beau monde). La question est d'inventer les outils permettant de trouver la bonne information dans cette nuée, d'identifier des noeuds capitaux pour la bonne tenue de l'ensemble, de regrouper les gens par affinité, ou de recommander de nouveaux produits aux acheteurs. En outre, contrairement à Königsberg, cette "ville" possède des quartiers et des ponts qui bougent, naissent ou meurent...
Il y a une dizaine d'années, une nouvelle science est donc apparue, pour décrire et comprendre ces graphes ou réseaux de grandes tailles qui grossissaient sans plan préétabli : le Web et ses réseaux sociaux (Facebook, LinkedIn, Twitter, Viadeo...). Les mathématiciens et informaticiens y ont vu un terrain de jeu stimulant pour pousser leurs théories et calculs dans leurs retranchements. "Il y a de quoi attirer de jeunes talents qui, auparavant, se lançaient dans la finance", constate Henri Verdier, président du pôle de compétitivité Cap Digital. Il a justement cofondé une entreprise, MFG Labs, avec deux mathématiciens.
Les physiciens s'y sont intéressés, armés de leurs outils statistiques qui permettent de passer du microscopique (l'agitation des atomes d'un gaz, par exemple) au macroscopique (comme la température de ce gaz). Même les sciences humaines s'y sont mises, car pour un sociologue les réseaux sociaux existaient bien avant le Web. Certains d'entre eux avaient déjà dessiné des graphes, à la main, pour décrire les interactions entre différents membres de communautés familiales, religieuses, sportives... "Le Web est à la fois l'objet de la recherche et le moyen de la recherche", constate Dominique Cardon, sociologue au laboratoire Sense d'Orange Labs. Le mouvement est lancé. Des bases de données d'articles scientifiques, comme PubMed, recensent déjà plus de 200 articles ayant comme sujet Facebook, une centaine concernant Twitter, comme si ces sites étaient des gènes ou des particules. Des conférences et des revues spécialisées se créent.
En France, l'Institut Télécom vient de lancer une chaire "réseaux sociaux", soutenue par Danone ou La Poste. Une seconde sur la question des "données numériques" suivra très bientôt. Autour du médialab de Sciences Po sera développé un instrument à trois "bras", DIME-SHS (Données, infrastructure, méthodes d'enquêtes en sciences humaines et sociales), pour faire passer les sciences humaines à l'ère du numérique.
Jungle foisonnante
Outre des technologies pour effectuer des sondages via des tablettes, il y aura une plate-forme archivant et donnant accès à des études de terrain précédentes. Enfin, un service permettra aux chercheurs de construire et d'analyser leurs propres corpus issus de l'exploration des multiples "traces" laissées par les internautes sur le Web : billets de blogs, tweetts, liens hypertextes postés, statistiques d'usages... "Nous avons beaucoup de demandes de chercheurs pour de tels outils, mais d'autres sont encore réticents, notamment car la méthodologie n'est pas encore mûre, explique Paul Girard, l'un des ingénieurs de ce futur équipement au médialab de Sciences Po. Le Web ne dit pas tout."
Cette mode est affublée de plusieurs noms : science du Web, science des réseaux, humanités numériques... Peu importe, à peine née, ses résultats intéressent les fournisseurs commerciaux de services Web. Comment trier l'information au plus vite ? Comment identifier des communautés d'intérêts dans la jungle foisonnante du Web ? Comment se diffusent des informations ou des produits sur ces réseaux ?...
D'autres acteurs aimeraient aussi avoir ces réponses. Le secteur de la sécurité et de la défense rêve de surveiller les activités suspectes et de les anticiper. Les sondeurs (et hommes politiques) guettent toute percée sur la mesure de l'"état de l'opinion" sans recourir aux sondages. Le marketing s'y plonge pour repérer les profils influents et élaborer des campagnes efficaces... Le vieux rêve (ou cauchemar) d'une prédiction du futur refait surface.
Où en est-on vraiment ? Le succès le plus évident de l'application de la théorie des graphes au Web est à chercher du côté du moteur de recherche Google. Alors que, dans les années 1990, des sites hiérarchisent à la main les informations dans de gigantesques annuaires reposant sur le contenu des sites et des pages référencées, Sergey Brin et Larry Page, les fondateurs de Google, innovent à partir de 1995. Leur méthode recense seulement les liens hypertextes qui permettent de passer d'une page à l'autre et en tire un classement, selon le "vieux" principe académique qui veut que plus une page est citée (via ces liens), plus elle est pertinente. C'est donc la structure même du réseau qui sert à son classement. Pas son contenu. "Cette rupture a périmé en un rien de temps les autres techniques", rappelle Dominique Cardon, qui constate également que cette suprématie est en passe d'être chamboulée.
Plus modestement que Google, d'autres sociétés utilisent la force de la structure sur le contenu pour se repérer dans la jungle des sites Web. Par exemple Linkfluence : cette start-up, dont Le Monde est partenaire, réalise ainsi des cartes de la blogosphère francophone. Plus de 13 500 sites sont regroupés en trois "continents", eux-mêmes sous-divisés en vingt territoires, etc. Le tout en analysant les liens entre eux et en vérifiant a posteriori les contenus.
Cette quête de "communautés" est une branche toujours très active de la recherche en mathématique et informatique pour l'automatiser. La méthode la plus efficace a été inventée par l'université de Louvain, en 2008, et appliquée avec succès sur de très grands graphes, comme les échanges téléphoniques belges et français (Le Monde du 17 décembre 2011) ou Twitter, LinkedIn... En quelques minutes, la masse informe de noeuds "explose" et devient une galaxie plus lisible avec des agrégats bien séparés. Reste à étudier les évolutions dans le temps de ces réseaux et à tenir compte des multi-appartenances des noeuds. Car, les sociologues le savent bien, un individu peut avoir plusieurs "identités".
Les nains et les géants
Cette structuration des graphes en communautés est l'une des propriétés remarquables mises en évidence par les pionniers américains de la fin des années 1990, tels Duncan Watts, Albert-Laszlo Barabasi, Jon Kleinberg... Il existe, dans ces grands réseaux, des régions denses avec beaucoup de liens et de grands espaces sans lien. Ils ont aussi réalisé que ces réseaux, malgré leur nombre important de noeuds et de liens, sont en fait de petite taille. Autrement dit qu'en quelques sauts, de lien en lien, on peut parcourir n'importe quel point du graphe. Selon Albert-Laszlo Barabasi, le Web tout entier aurait même un diamètre inférieur à vingt.
Plus récemment, les chercheurs de Facebook ont trouvé que le diamètre du réseau social était inférieur à cinq. Attention, petit diamètre ne signifie pas que nous soyons tous "amis". "Ce résultat sur Facebook n'a ni sens ni implication sociologique. En effet, une propriété caractéristique de ces réseaux dits petits-mondes est que le nombre de liens (comme le nombre d'amis sur Facebook) est réparti de manière aussi inéquitable entre les noeuds du réseau que le capital au sein d'une population : être à quatre poignées de main d'une personne qui a 3 000 amis déclarés ne la rend pas plus abordable que se trouver le nez devant sa porte close, explique Christophe Prieur, du laboratoire d'algorithmique du CNRS et de l'université Paris Diderot. Dans un monde (hypothétique) où la personne la plus éloignée de vous serait à six pas, ce six signifie l'infini."
L'une des lois du Web est en effet que la richesse va à la richesse et que, grosso modo, 20 % des noeuds possèdent 80 % des liens. Cette loi statistique que l'économiste italien Vilfredo Pareto a exhibée pour la richesse s'applique aussi à ces graphes. Dans ce cas, les notions de moyenne n'ont pas de sens. La "richesse" ne se répartit pas comme les notes d'une classe ou les tailles des individus le long d'une courbe en cloche. Au pays du Web, les nains et les géants ne sont pas rares.
David Larousserie - Le Monde.fr - 3.2.2012