DeepMind, filiale de Google, a fait une nouvelle démonstration des performances de son programme d'intelligence artificielle. AlphaZero, une variante d'AlphaGo qui pratique l'apprentissage par renforcement, n'a mis que quatre heures en partant des règles de base pour vaincre le meilleur programme de jeux d'échecs actuel.
Après avoir démontré l'implacable supériorité de son intelligence artificielle (IA) au jeu de go, DeepMind, filiale de Google, cherche désormais à rendre celle-ci plus généraliste. L'objectif est de créer une IA réussissant à accomplir des tâches complexes dans le monde réel avec un minimum de connaissances a priori. Pour cela, il faut que le programme puisse évoluer de manière autonome sans s'appuyer sur un apprentissage supervisé par des humains.
Il y a peu, DeepMind a fait un pas important dans cette direction avec AlphaGo Zero, une nouvelle version de son programme de jeu de go qui n'a mis que trois jours à vaincre son prédécesseur en pratiquant un apprentissage « tabula rasa » par renforcement (reinforcement learning, en anglais). AlphaGo Zero ne disposait que des règles du jeu et de la position des pierres sur le plateau. Partant de cette base, elle est allée encore un peu plus loin.
Dans un nouvel article scientifique, DeepMind dévoile ainsi AlphaZero, qui reprend le principe de l'apprentissage autodidacte par renforcement dans une approche moins spécialisée. En disposant pour seule base des règles des jeux d'échecs, de go et de shogi (variante japonaise des échecs), cette IA est parvenue à atteindre un « niveau de jeu surhumain » et à battre les meilleurs programmes existant dans ces trois disciplines.

AlphaZero a battu Stockfish en quatre heures

La performance est d'autant plus impressionnante qu'il lui aura fallu moins de vingt-quatre heures pour y parvenir :

  • Après huit heures d'entraînement et 21 millions de parties jouées contre lui-même, AlphaZero a battu AlphaGo-Lee, la première IA à avoir dominé un joueur humain.
  • Pour les échecs, AlphaZero n'a eu besoin que de quatre heures de pratique et 44 millions de parties pour vaincre Stockfish, l'un des meilleurs moteurs d'échecs actuels.
  • Deux heures et 24 millions de parties lui suffirent pour terrasser Elmo, le meilleur programme de shogi.
Cette polyvalence et cette rapidité rapprochent encore un peu plus DeepMind et Google de leur objectif : créer une intelligence artificielle généraliste susceptible de travailler dans des domaines concrets, notamment pour la science et la médecine. Google en retirerait aussi beaucoup d'avantages pour faire évoluer ses propres services. Le prochain grand défi pour DeepMind et sa maison mère sera de pouvoir battre les humains au jeu vidéo StarCraft.

Source : Marc Zaffagni, Futura-Sciences