in

Une nouvelle technique de généralisation pour rendre les systèmes d’IA plus polyvalents

Nouvelle technique d'apprentissage

Un groupe de DeepMind a mis au point une nouvelle méthode pour entraîner les systèmes d’IA à jouer à des jeux. Appelé Open-Ended Learning Team, le groupe a donné aux agents de son nouveau système d’IA un ensemble de compétences minimales qu’ils utilisent pour atteindre un objectif simple et qu’ils développent ensuite.

Open-Ended Learning Team pour des compétences pour atteindre des objectifs

Les chercheurs ont créé un monde virtuel appelé XLand — un monde virtuel coloré qui a l’apparence générale d’un jeu vidéo. Dans ce monde, les joueurs IA, que les chercheurs appellent des agents, partent à la recherche d’un objectif général. Au fur et à mesure, ils acquièrent des compétences qu’ils peuvent utiliser pour atteindre d’autres objectifs. Les chercheurs changent ensuite de jeu, en donnant aux agents un nouvel objectif. Ils leur permettent toutefois de conserver les compétences qu’ils ont acquises dans les jeux précédents. Le groupe a rédigé un article décrivant ses efforts et l’a publié sur le serveur arXiv preprint.

700 000 scénarios uniques

Un exemple de cette technique est celui d’un agent qui tente de se rendre dans une partie de son monde. Un monde trop haut pour y grimper directement et pour laquelle il n’existe pas de points d’accès tels que des escaliers ou des rampes. En tâtonnant, l’agent découvre qu’il peut déplacer un objet plat qu’il trouve en s’en servir comme une rampe. Une rampe qui l’aide en même temps à se frayer ainsi un chemin jusqu’à l’endroit où il doit se rendre. Pour permettre à leurs agents d’acquérir davantage de compétences, les chercheurs ont créé 700 000 scénarios ou jeux. Scenarios dans lesquels ils ont été confrontés à environ 3,4 millions de tâches uniques.

Grâce à cette approche, les agents ont pu apprendre à jouer à de multiples jeux, tels que le tag, la capture du drapeau et le cache-cache. Les chercheurs qualifient leur approche de défi sans fin. Un autre aspect intéressant de XLand est l’existence d’une sorte de superordinateur. Une entité qui les surveille et note les compétences qu’ils apprennent, puis génère de nouveaux jeux pour renforcer leurs compétences. Avec cette approche, les agents continueront d’apprendre tant qu’on leur confiera de nouvelles tâches.

Un nouveau pas vers la création d’algorithmes plus avancés

En gérant leur monde virtuel, les chercheurs ont constaté que les agents acquéraient de nouvelles compétences qu’ils trouvaient utiles. Ils les mettaient ensuite à profit pour acquérir des compétences plus avancées. Parmi ces compétences, on peut par exemple citer le recours à l’expérimentation lorsqu’ils sont à court d’options, la coopération avec d’autres agents et l’utilisation d’objets comme outils. Ils suggèrent que leur approche est un pas vers la création d’algorithmes généralement capables d’apprendre à jouer à de nouveaux jeux par eux-mêmes — des compétences qui pourraient un jour être utilisées par des robots autonomes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.