samedi 20 janvier 2007
Google: nouvel outil pour mesurer l’impact d’une découverte scientifique ?
Par Didier Müller, samedi 20 janvier 2007 à 10:32 - Il y a des maths là ?
Google: nouvel outil pour mesurer l’impact d’une découverte scientifique ?
Par Dominique Selse
Article paru sur Futura Sciences le 16 mai 2006
C’est à une utilisation originale du moteur de recherche Google, ou plutôt de son algorithme de classement, que viennent de penser des physiciens américains. Avec le fameux « PageRank », qui donne une idée à la fois de la pertinence et de la popularité d’un site et d’un document web, ils proposent une méthode systématique pour mesurer… rien moins que la qualité du travail des scientifiques.
La communauté scientifique a pour pratique d’évaluer l’importance d’un résultat par l’impact qu’aura sa publication, lequel est lui-même mesuré en comptant le nombre de citations par d’autres articles sur une période donnée: c'est le "facteur d'impact" (ou "impact factor"). La technique de comptage manuel ou automatisé aboutissant à des « indices de citation » n’est pas infaillible. Il a pu arriver que certains « papiers », qui ont marqué la physique par exemple, n’aient eu que peu de citations… Parmi les « perles » égarées : le célèbre « Theory of the Fermi interaction » publié par Feynman et Gell-Mann en 1958, n’avait pas été abondamment cité. Il est pourtant à l’origine d’une nouvelle théorie devenue ensuite le « modèle standard » pour les interactions faibles. Pas moins ! Google vient de permettre de l’exhumer… (1)
Le PageRank à la recherche des papiers perdus…
Pour « déterrer » de tels papiers, des chercheurs de l’université de Boston et du laboratoire Brookhaven proposent une nouvelle technique en utilisant l’algorithme dit de « PageRank » du moteur de recherche. Arrêtons-nous un instant sur ses principes. Le PageRank, ou « PR », inventé par les deux fondateurs du moteur Sergueï Brin et Larry Page, et qui est en grande partie à l’origine du succès de Google depuis la fin des années 1990, représente la « popularité » d’un site ou d’un document sur la Toile à travers le nombre et le poids des liens qu’il entretient avec d’autres sites. Google compte ainsi le nombre de liens reçus par une page, et analyse leur « poids », c'est-à -dire l’intérêt de la page de provenance. Cela s’apparente à un « vote » permettant au contenu Web mondial d’élire en quelque sorte les sites et les documents les plus intéressants. Le PR se traduit par un nombre entre 0 et 10, qui permet de classer les sites selon leur pertinence à des requêtes par mots-clés.
Mathématiquement, supposons qu’une page A reçoive des liens entrants en provenance des pages T1, T2… Tn et émette des liens sortants vers d’autres pages au nombre de C(A). En tenant compte d’un facteur de pondération d, le PageRank est formulé ainsi (et déterminé par un calcul itératif):
PR(A) = (1-d) + d(PR(T1)/C(T1) + … + PR(Tn)C(Tn))
Les chercheurs américains ont appliqué cet algorithme à un réseau composé de la totalité des articles de Physical Review et de leurs citations entre 1893 et juin 2003. Ils l’ont représenté comme une matrice de 353 268 « nœuds » (les articles publiés durant la période) et de 3 110 839 « liens » (les citations entre articles de la revue).
Les scientifiques ont trouvé que les résultats obtenus par la technique du PageRank sont linéairement corrélés à ceux de la technique classique des indices de citations. Ainsi les articles les plus souvent cités sont aussi ceux qui ont un PR élevé ! Mais ils sont aussi découvert des « anomalies » : certains papiers exceptionnels ont un PR excessif comparé à leur indice de citation. Exemple de quelques « classiques » injustement enfouis dans la littérature : un papier de Wigner et Seitz (« On the constitution of metallic sodium ») paru en 1933, qui est une référence sur l’état solide ; ou l’article de Glauber en 1963 (« Photon correlations ») couronné plus tard par un Prix Nobel de physique…
Avec cette application inattendue du plus célèbre des moteurs de recherche, qui décidément ne cesse de surprendre, les chercheurs pourraient disposer d’une palette de techniques plus large et plus sûre pour organiser la littérature scientifique ainsi que la recherche d’informations au sein de la masse publiée chaque année.
(1) Physics/0604130, Finding Scientific Gems with Google, P. Chen, H.Xie, S.Maslov, S. Redner
lu 5791 fois