jeudi 28 janvier 2016
Comment l’intelligence artificielle de Google bat l’humain au jeu de go
Par coyote, jeudi 28 janvier 2016 à 21:23 - Intelligence artificielle
AplhaGo, programme d’intelligence artificielle développé par DeepMind, filiale de Google, a battu un joueur professionnel au jeu de go. Une avancée majeure qui n'était pas attendue avant une dizaine d’années. L'annonce vient d'en être faite, au moment d'une publication scientifique. De quoi décrypter la réalisation et la méthode, avec réseaux neuronaux et apprentissage. Accrochez vos ceintures et plongez avec nous dans les rouages d'AlphaGo qui défiera le champion du monde en mars prochain, et qui aura aussi, sans doute, des déclinaisons au-delà du jeu…
Cette semaine peut être considérée comme historique pour l’intelligence artificielle. D’une part, elle a perdu l’un de ses pères, Marvin Minsky et, d’autre part, elle a franchi une étape majeure dans son perfectionnement. Google a en effet annoncé que sa filiale DeepMind avait développé une intelligence artificielle qui a battu à plate couture un joueur professionnel. Nommé AlphaGo, le programme a surclassé Fan Hui, triple champion européen en titre du jeu de go, en gagnant cinq victoires à zéro. L’affrontement a eu lieu en octobre dernier, mais Google a souhaité attendre la parution de l’article scientifique consacré à ce défi dans la revue Nature avant d'annoncer cet exploit.
Pourquoi cette victoire est-elle si importante ? Parce que, après le succès de l’ordinateur Deep Blue face au champion du monde d’échecs Gary Kasparov en 1997, le go restait le seul jeu de réflexion à résister aux machines. Il y a un peu plus d’un an, les experts ayant développé les programmes de jeu de go les plus performants, à l’instar de Crazy Stone du Français Rémi Coulom, estimaient qu’il faudrait encore une décennie, voire plus, avant qu’une machine ne puisse vaincre un humain.
Les règles du go sont simples : deux joueurs s’affrontent sur un plateau où ils placent des pierres noires et blanches afin de délimiter des territoires et de capturer les pièces de l’adversaire. Le but ultime est de contrôler plus de la moitié du plateau. Mais cette apparente simplicité cache une profonde complexité car ce jeu repose avant tout sur l’intuition. « Le nombre de combinaisons possibles est supérieur au nombre d’atomes que compte l’univers », résume Demis Hassabis, l’un des fondateurs de la société britannique DeepMind que Google a acquise en 2014. Les techniques d’intelligence artificielle basées sur la force brute, qui construisent un arbre binaire de recherche pour tester toutes les possibilités de mouvements, n’avaient jusqu’ici aucune chance de succès avec le jeu de go.
L’algorithme apprend en jouant contre lui-même
Pour réussir ce coup de maître, DeepMind a combiné les meilleurs techniques d’intelligence artificielle et la puissance de calcul mise à sa disposition par la plateforme de cloud computing de Google. Au cœur du dispositif, deux réseaux neuronaux d’apprentissage profond ayant chacun une tâche différente. Le premier appelé policy network (quelque chose comme « réseau politique » ou « réseau de décision ») travaille à prédire le prochain coup tandis que le second, value network (« réseau de valeur »), estime l’issue favorable d’un mouvement à partir de la configuration du plateau de jeu.
Les deux réseaux ont été associés à un arbre binaire de recherche qui utilise la méthode algorithmique probabiliste dite de Monte-Carlo sur laquelle reposent les logiciels de jeu de go les plus performants du moment (Crazy Stone et Zen). Elle consiste à jouer toutes les fins de parties possibles à partir d’une position en comptabilisant les parties gagnantes et perdantes. Les réseaux neuronaux sont là pour affiner la recherche, réduire sa complexité et sa profondeur, en adoptant une forme de raisonnement plus proche de l’imagination humaine.
Chaque réseau est composé de douze couches contenant chacune des millions de connexions neuronales. Les « réseaux politiques » ont été entraînés avec une base de données de 30 millions de coups provenant de parties jouées par des experts jusqu’à ce qu’ils puissent prédire un mouvement 57 % du temps. Mais pour qu’AlphaGo puisse développer ses propres stratégies de jeu, DeepMind a eu recours à un apprentissage renforcé en lui faisant jouer des milliers de parties contre lui-même. Puis, les « réseaux politiques » ont été utilisés pour entraîner les « réseaux de valeur », toujours par apprentissage renforcé. « Ces réseaux de valeur peuvent évaluer n’importe quelle position de go et estimer l’éventuel gagnant », souligne Google.
Évidemment, cet ambitieux programme n’aurait pu aboutir sans la puissance de calcul et la capacité de stockage que le géant nord-américain a fourni à travers son réseau de cloud computing. Par ailleurs, l’équipe de DeepMind a utilisé la plateforme d’intelligence TensorFlow dont Google a récemment libéré le code source. Ne restait plus ensuite qu’à envoyer AlphaGo défier un joueur professionnel. Mais avant cela, en guise d’échauffement si l’on peut dire, il a été confronté aux meilleurs logiciels de go du moment. Installé sur une seule machine, AlphaGo a remporté 499 des 500 parties disputées.
Comment sera utilisée cette intelligence artificielle ?
Face à Fan Hui, joueur français d’origine chinoise champion d’Europe en titre, le programme de DeepMind n’a pas fait de détails, s’adjugeant cinq victoires contre zéro pour son opposant. « Avec AlphaGo, on a joué durant cinq jours, avec deux parties par jour, une normale et une rapide. J’ai perdu 5-0 les parties normales, 3-2 les parties rapides. Comme lui joue très vite, j’aurais dû perdre plus dans les parties rapides, mais ce fut l’inverse, explique Fan Hui dans un entretien avec Le Monde. Je n’ai pas du tout eu l’impression de jouer contre un ordinateur. Il joue comme un humain ». Sans doute le meilleur compliment que pouvait recevoir AlphaGo…
Mais Google ne compte pas en rester là . Le prochain défi pour son intelligence artificielle sera de tenter de battre le champion du monde de la discipline, Lee Sedol. La rencontre aura lieu en mars prochain à Séoul et le match sera retransmis en direct via la chaîne YouTube DeepMind. « J’aurai le privilège d’affronter pour la première fois un ordinateur. J’ai entendu dire qu’AlphaGo est étonnamment fort et s’améliorera encore, mais je suis confiant que je pourrai gagner, au moins cette fois-ci », a déclaré Lee Sedol.
Quelle que soit l’issue de cet affrontement ultime, AlphaGo a d’ores et déjà fait accomplir un pas de géant à l’intelligence artificielle. Mais au-delà du jeu de go, la grande question est de savoir ce que Google compte faire de ce formidable outil. « Même si les jeux sont la plateforme idéale pour développer et tester rapidement des algorithmes d’intelligence artificielle, au bout du compte, nous voulons appliquer ces techniques à d'importants problèmes du monde réel », commente l’entreprise qui cite comme exemple la modélisation climatique et le diagnostic de maladies complexes. On peut aussi penser que Google exploitera cette technologie pour perfectionner ses propres services, notamment son moteur de recherche et son assistant vocal pour smartphones.
Au cours de la conférence de presse qui a suivi la présentation d’AlphaGo, Demis Hassabis a été questionné sur les risques potentiels à long terme d’une intelligence artificielle aussi performante. Il a répondu que son entreprise collaborait sur ce sujet avec des universitaires, organisait des conférences et s’était dotée d’un comité d’éthique interne. « Par ailleurs, nous nous sommes mis d’accord avec Google pour que ces technologies ne soient pas utilisées à des fins militaires », a-t-il assuré.
Source : Marc Zaffagni, Futura-Sciences
lu 2568 fois