jeudi 17 décembre 2009
Les mots du web en équation
Par coyote, jeudi 17 décembre 2009 à 13:02 - Internet
Du désordre peut naître l'ordre. Ce principe, souvent constaté dans la nature, s'applique aussi aux comportements des internautes sur la Toile. C'est ce que viennent de découvrir des physiciens du Centre de physique théorique, à Marseille (résultat paru dans PNAS du 30 juin 2009), en collaboration avec des équipes italiennes. Les chercheurs se sont penchés sur certains sites internet où les utilisateurs annotent par des mots-clés, couramment appelés tags, – le contenu de pages web. Peu à peu, ces mots-clés constituent une gigantesque base de données qui permet de faire des recherches très précises sur l'ensemble des sites annotés.
En étudiant de près la structure de cette base de données, construite sans concertation des internautes entre eux, les scientifiques se sont rendu compte qu'elle était loin d'être anarchique. "Preuve en est la taille du dictionnaire de mots-clés utilisés par la communauté, note Alain Barrat. Celui-ci grandit de manière régulière, en suivant une équation bien précise."
L'étape suivante pour les chercheurs a été de retrouver mathématiquement pourquoi ils observaient une telle propriété. "Chaque individu est complexe, explique Alain Barrat. Mais l'action cumulée et non coordonnée de plusieurs millions d'entre eux va faire émerger des comportements qu'on peut modéliser par des concepts mathématiques simples." Ainsi, nos physiciens ont montré que la structure de la base de données pouvait être reconstruite à partir d'une succession de marches aléatoires, un concept courant en physique statistique qui décrit différentes trajectoires obtenues par une série de déplacements dans des directions choisies au hasard.
Pour les chercheurs, une seule explication. Selon eux, il existerait un réseau sémantique sous-jacent qui relierait entre eux les mots-clés et dans lequel les internautes "marcheraient" au hasard. "C'est une idée qui existe depuis longtemps en linguistique, explique Alain Barrat. Sans en avoir conscience, chaque internaute associerait au mot-clé principal – évident – d'une page web un autre mot-clé bien à lui." À l'annotation “fleur” pour une page de botanique par exemple, l'un va associer le mot “rose”, l'autre le mot “pétale”, etc. "Répété par l'ensemble des utilisateurs, ce mécanisme permet d'expliquer nos observations", ajoute le chercheur.
Un résultat théorique qui pourrait un jour déboucher sur des applications bien concrètes. Notamment la lutte contre le spamdexing ou référencement abusif. Certains spameurs n'hésitent pas, en effet, à infiltrer les sites en question en ajoutant une longue liste de mots-clés sans rapport avec la page mais qui renvoient discrètement vers des sites commerciaux. "C'est un comportement qui va contre les règles établies par la communauté d'internautes, commente Alain Barrat. Si on parvient à bien modéliser le fonctionnement normal de ce réseau d'utilisateurs, alors tout phénomène bizarre qui s'en écartera sera rejeté." Les pollueurs n'ont qu'à bien se tenir.
Source : Techno-Science
lu 3738 fois