DeepMind entraîne ses robots à se débrouiller au tennis de table

Deux robots s’affrontent à la table, mais ne jouent pas pour gagner : ils apprennent à apprendre. Chez DeepMind, le tennis de table devient un laboratoire explosif pour tester l’autonomie des robots.

Chaque jour, des robots humanoïdes apparaissent, capables d’agir à l’usine, à l’hôpital ou à la maison. Pourtant, leur corps impressionne davantage que leur cerveau, encore trop dépendant des réglages manuels. À ce jour, la plupart des systèmes doivent attendre qu’un expert intervienne pour évoluer. Ce modèle rigide ralentit le progrès et limite les applications en situation réelle. DeepMind a donc posé une question simple : comment permettre à un robot d’apprendre seul, sans dépendre constamment d’un humain ?

Un sport idéal pour tester

DeepMind a choisi un terrain inattendu pour expérimenter cette nouvelle approche : le tennis de table. Ce sport concentre les principaux défis de la robotique : coordination, vitesse, précision, stratégie et adaptation. Un robot doit localiser une balle, l’intercepter et la renvoyer au bon endroit, au bon moment.

Ce défi requiert non seulement une mécanique fluide mais aussi une intelligence capable de réagir en temps réel. L’équipe s’appuie sur ses précédents succès avec AlphaGo et AlphaFold pour entraîner des agents capables de progresser en jouant.

L’équipe de DeepMind a conçu un environnement autonome de ping-pong, avec deux bras robotisés qui s’affrontent. Lorsqu’un robot adopte une nouvelle stratégie gagnante, l’autre s’adapte et répond. Cela déclenche une chaîne d’améliorations. Cette compétition provoque un apprentissage rapide, sans intervention humaine directe dans la boucle.

La configuration fonctionne 24h/24 grâce à un système automatisé de ramassage de balles et de contrôle distant. Les robots, entraînés d’abord en simulation, atteignent ensuite un niveau d’échange soutenu dans le monde réel.

Une adaptation difficile mais prometteuse en situation réelle

Lorsque les agents passent du jeu coopératif à la compétition, les progrès deviennent plus compliqués. Les coups deviennent variés, la distribution des balles plus large, mais le modèle atteint vite ses limites. Le robot qui gagne simplifie l’échange, tandis que l’autre peine à réagir et cela bloque la progression.

DeepMind a donc introduit des humains dans l’entraînement. Face à des débutants, le robot gagne tous les points. Contre des joueurs intermédiaires, il réussit la moitié des matchs. Ces tests valident le potentiel d’un apprentissage par opposition régulière.

Le coach devient digital

Pour aller plus loin, DeepMind introduit un coach basé sur un modèle visuel-linguistique (VLM) comme Gemini. Ce système observe les parties et propose des conseils personnalisés pour progresser. Grâce à une méthode appelée SAS Prompt (résumer, analyser, synthétiser), le modèle guide l’apprentissage sans fonction de récompense explicite. Il comprend la tâche, interprète les résultats et suggère des ajustements pour améliorer les performances. Ce type de coaching ouvre la voie à une robotique plus explicable et autonome.

Les expérimentations de DeepMind menées autour du tennis de table illustrent un nouveau type d’apprentissage robotique. La firme montre qu’un robot peut évoluer par confrontation, auto-analyse et observation sans réécriture constante. Ce processus réduit le besoin de main-d’œuvre humaine dans les boucles d’amélioration.

Si des obstacles techniques demeurent, les résultats obtenus ouvrent des perspectives concrètes. En continuant à combiner compétition, modèles intelligents et adaptation temps réel, la robotique pourrait franchir un cap vers des machines capables de progresser en toute autonomie.

Partager l'article :