Décryptage

L’intelligence artificielle, tout un programme

Par Erwan Cario — 15 mars 2016 à 20:01

«Pulse», une création de l'artiste allemand Markus Kison, au festival d'arts numériques Data-Neurons, à Taipei (Taiwan), le 14 novembre 2013. Photo Pichi Chuang. REUTERS

AlphaGo utilise un réseau de neurones d’une puissance inédite. Une révolution pour le secteur.

L’intelligence artificielle, tout un programme

D’ordinaire, un programme informatique, c’est con comme un balai. En gros, il fait docilement ce que ses concepteurs lui disent de faire. Si on lui dit d’afficher «bonjour tout le monde», il obéit. Longtemps, les programmes labélisés «intelligence artificielle» n’étaient pas beaucoup plus brillants. Ils prenaient une situation, exploraient mécaniquement toutes les possibilités (ou presque) avant de prendre la décision possédant les meilleurs résultats potentiels. C’était le cas pour Deep Blue, le programme qui a battu Gary Kasparov aux échecs en 1997. A partir d’une position, il analysait des millions de déplacements possibles pour décider de son coup. Pas subtil pour un sou.

En quoi AlphaGo marque-t-il un progrès ?

Sa principale différence : il apprend. Rien de révolutionnaire néanmoins, les équipes de Google DeepMind ont simplement réussi à combiner trois méthodes pour pousser son niveau de jeu au firmament. «AlphaGo relève d’une révolution industrielle, un peu comme celle qui a touché les moteurs de recherche à l’arrivée de Google, explique Tanguy Urvoy, chercheur en apprentissage statistique à Orange Labs. Ils n’ont rien inventé de complètement nouveau, mais ils ont réussi à mettre en œuvre des techniques existantes d’une manière inédite.» Au cœur d’AlphaGo, donc, le «Monte Carlo tree search», le «deep learning» et «l’apprentissage par renforcement». Le premier est la méthode d’exploration des coups utilisée dans tous les programmes de go depuis une dizaine d’années, ce sont donc les deux autres qui ont fait la différence.

Le «deep» quoi ?

AlphaGo utilise ce qu’on appelle un réseau de neurones profond. En (très) gros, il s’agit d’un ensemble de modules qui fonctionnent ensemble pour produire une décision à partir d’une situation initiale. Dans le cas présent, les chercheurs de DeepMind ont proposé comme point de départ des plateaux de go correspondant à des parties de maîtres. Le réseau devait proposer le meilleur coup possible. Cette proposition était ensuite comparée au choix du maître. Et c’est là qu’intervient la force de cette technique : si les deux coups sont différents, le programme doit alors modifier certains modules qui composent son réseau pour aboutir à la bonne décision. Il n’a donc pas appris le mouvement par cœur, il a modifié son processus de raisonnement. Toute la difficulté consiste à ne modifier que les éléments pertinents du réseau, c’est l’enjeu du «deep learning». DeepMind a répété cette opération plus de 30 millions de fois pour construire un réseau de neurones d’une puissance inédite. Mais ça ne suffisait pas, car en opérant de cette manière, le réseau pouvait, au mieux, se rapprocher du niveau des maîtres qu’il avait pris en exemple (il prévoyait 57 % des coups humains). C’est là qu’intervient «l’apprentissage par renforcement». Au lieu de glander devant Top Chef, le réseau de neurones passe son temps libre à jouer contre lui-même des millions de parties (merci la puissance de calcul de Google). A chaque fois, il s’adapte et se corrige pour prendre en compte les erreurs qu’il a pu commettre. C’est ainsi qu’entre octobre et mai, il est passé du niveau d’un champion européen (600^e mondial environ) à celui de champion du monde.

Pourquoi c’est important ?

«C’est un marqueur, insiste Tanguy Urvoy. Dans ce domaine, on ne cesse de gravir une côte, et la performance d’AlphaGo montre qu’on continue de grimper. Plus vite que prévu, en l’occurrence.» En termes d’apprentissage, l’expérience acquise par DeepMind pourra avoir des applications dans énormément de domaines, allant de la traduction automatique, aux résultats encore balbutiants, à la reconnaissance d’images, qui a fait récemment de grands progrès. De là à tutoyer l’intelligence humaine, bien plus polyvalente ? «Je n’y croyais pas trop, mais je pense aujourd’hui que ça va arriver, admet Tanguy Urvoy. Ça nous oblige à réfléchir à la portée de ce que nous faisons. Mais d’une manière générale, un peu plus d’intelligence ne nuit pas.»

Erwan Cario

Vous êtes abonné à Libération

Le journal d'aujourd'hui

Aucun commentaire

Dans le dossier «High-tech»