Des agents qui codent, naviguent et agissent : points forts d’un Bootcamp intensif de quatre jours

Par : Hager Radi Abdelwahed – Scientifique senior en recherche appliquée au Mila : Institut québécois d’IA

Compte tenu des progrès rapides réalisés dans le domaine des agents IA, IVADO a organisé le bootcamp « État actuel des agents » (du 12 au 15 août 2025), dans le cadre du semestre thématique consacré aux Agents LLM autonomes : risques et défis scientifiques. Ce bootcamp de quatre jours a réuni des chercheuses et chercheurs universitaires et industriels afin d’explorer l’état actuel des systèmes agentiques. Chaque journée avait son propre thème, couvrant les sujets suivants : 1) Codage des agents, 2) Agents web, 3) Robotique et incarnation, 4) Interaction multi-agents.

Jour 1 – Des agents qui codent
La première journée a été consacrée aux agents conçus pour le codage, qu’il s’agisse de générer ou de déboguer du code. Daniel Fried a présenté en détail l’état de l’art en matière d’agents de codage, démontrant comment les LLM peuvent répondre à des questions en générant du code. Il a mis en avant des recherches telles que TroVE, qui permettent aux agents d’ajouter des outils et des fonctions de manière dynamique. M. Fried a également abordé les benchmarks d’évaluation tels que RepoST, qui impliquent la simulation d’API externes, la synthèse d’entrées et de comparateurs, et le test unitaire d’outils construits par LLM par rapport à du code réel. Sur cette base, SWE-RL a perfectionné l’apprentissage par renforcement (RL) centré sur le raisonnement afin de réussir à effectuer de véritables corrections GitHub PR.

Poursuivant sur le thème des benchmarks, Ofir Press a détaillé diverses initiatives visant à créer des indicateurs d’évaluation fiables pour les agents de codage. Il a mentionné SWE-bench, SWE-bench-live et SWE-bench-mini comme des tentatives d’évaluation des agents LLM sur des tâches d’ingénierie logicielle telles que la résolution de bogues et la résolution de problèmes GitHub. Il a également présenté un agent SWE concis de 100 lignes.

La journée s’est terminée par un tutoriel animé par Microsoft Montréal (Marc-Alexandre Côté et Alessandro Sordoni), offrant aux participantes et participants l’occasion d’explorer debug-gym, un outil qui permet le débogage de code grâce à des interactions textuelles avec un agent.

Jour 2 – Agents web à grande échelle

Siva Reddy a lancé une discussion sur la voie vers des agents web sûrs, en établissant un parallèle entre les agents web et l’analyse sémantique. Il a présenté divers benchmarks tels que WebArena, VisualWebArena et WorkArena pour évaluer les agents web LLM. Une question clé a été soulevée : les agents ont-ils besoin de nouvelles interfaces web, distinctes de celles conçues pour l’interaction humaine ? Il a conclu que l’alignement des LLM présente une faible transférabilité aux agents web, que les LLM sont peu performants en tant que juges pour les agents web et qu’il est nécessaire de disposer de LLM multimodaux plus puissants, spécialement adaptés aux agents web.

Victor Zhong a ensuite abordé le sujet des agents généralistes, soulignant l’utilité de benchmarks tels que OSWorld pour évaluer les agents Web dans des cas d’utilisation informatique réels.

Par la suite, Xin Eric Wang a expliqué qu’un agent généraliste robuste peut constituer un modèle de base faible. Il a souligné que la clé réside dans la capacité d’un modèle généraliste à fonctionner sur le raisonnement sémantique tout en répartissant simultanément la charge cognitive entre des modèles spécialisés. Il a remis en question la dépendance actuelle aux interfaces web, suggérant que les agents pourraient également interagir avec les ordinateurs via la ligne de commande et le code.

Le tutoriel de la journée a été animé par Alexandre Lacoste, de ServiceNow, qui s’est penché sur le processus de création et d’évaluation des agents web autonomes. Il a détaillé les efforts en cours pour unifier les benchmarks, dans le but d’harmoniser les méthodes d’évaluation sous un seul méta-benchmark complet. Faisant écho aux discussions précédentes, il a rassuré les participants en leur affirmant que le développement d’agents Web était simple grâce à la disponibilité de VLM puissants. Il a toutefois averti que l’évaluation des agents était difficile et qu’il était facile de les tromper, ce qui ouvrait la voie à de nouvelles menaces pour la sécurité.

Jour 3 : Robotique : des cartes aux politiques multimodales

Liam Paull a lancé la discussion en présentant les approches traditionnelles du fonctionnement des robots, puis en explorant comment les représentations des modèles de base peuvent être intégrées et le potentiel de création de modèles de base généralistes en robotique. Il a souligné les défis actuels pour les modèles robotique généralistes, notamment la rareté des données, le raisonnement fondé sur le bon sens et la robustesse. Étant donné que les VLM ne produisent pas directement de valeurs de contrôle, il a évoqué de nouveaux travaux utilisant des modèles Vision-Language-Action (VLA) tels que OpenVLA, π0.5 et Poutine.

Joyce Chai a poursuivi la conversation en développant le sujet de l’intégration des VLM et des VLA dans les robots. Elle a souligné les diverses applications des grands modèles linguistiques (LLM) dans les robots cognitifs, notamment l’ancrage, la manipulation et la navigation. Elle a expliqué comment le langage peut servir d’outil de raisonnement pour les robots, au-delà de son rôle de canal de communication. Elle a également exploré le potentiel de l’utilisation des LLM avec la simulation pour la synthèse de données, qui peuvent ensuite être utilisées pour le pré-entraînement et le réglage fin des modèles de base pour les robots.

Jana Pavlasek a souligné la nécessité de solutions adaptées au monde réel dans des environnements non structurés pour les robots réels. Elle a plaidé en faveur de modèles combinant l’apprentissage automatique et l’inférence probabiliste afin de fournir des biais inductifs efficaces pour la robotique.

Glen Berseth a conclu la journée par un tutoriel pratique sur la création de politiques générales pour les robots à l’aide de code. Il a souligné que l’apprentissage supervisé était insuffisant pour la généralisation et a insisté sur l’importance de développer des robots capables d’agir sur un large éventail de commandes humaines. Il a présenté ses travaux récents sur les ensembles de données à grande échelle et les modèles de base pour les robots, tels que Open-X-Embodiment et PaLM-E.

Si les discussions de la journée pourraient laisser penser que les robots sont sur le point de prendre entièrement le relais des tâches humaines, il a finalement été confirmé qu’ils avaient encore un long chemin à parcourir.

Jour 4 : Raisonnement et apprentissage multi-agents

Des systèmes à agent unique aux systèmes multi-agents, Alane Suhr a présenté les complexités des systèmes multi-agents, dans lesquels les agents doivent construire des modèles du monde à partir de perspectives diverses, comprendre les objectifs des autres agents et même raisonner sur leur façon de penser (théorie de l’esprit). Elle a évoqué des outils tels que l’utilisation du langage et la modélisation des dynamiques d’interaction pour relever ces défis, soulignant leur importance pour la collaboration entre les humains et les agents, en citant le système de recherche multi-agents d’Anthropic. Mme Suhr a également mis en garde contre les limites des LLM dans la modélisation précise des dynamiques sociales et la reproduction des stéréotypes dans les simulations multi-agents, remettant en question leur capacité à remplacer la recherche sur des sujets humains.

Natasha Jaques a ensuite abordé l’application de l’apprentissage par renforcement multi-agents (MARL) aux grands modèles linguistiques (LLM), en particulier la manière dont l’auto-apprentissage peut être exploité pour former des LLM sûrs. Elle a expliqué que le MARL peut faciliter la formation conjointe d’un défenseur et d’un attaquant, où ce dernier est incité à générer davantage d’attaques, ce qui pousse le défenseur à réagir et à raisonner face à ces défis.

Yoav Artzi a ensuite présenté comment les LLM peuvent apprendre à partir d’interactions conversationnelles grâce à l’apprentissage rétrospectif. Il a démontré comment les LLM peuvent servir de décodeurs de rétroaction, capables de fournir une rétroaction conversationnelle implicite, même dans des tâches où ils obtiennent initialement de mauvais résultats. Cela leur permet d’extraire des signaux d’apprentissage à partir d’interactions passées et de renforcer leurs capacités. Il a également présenté le concept d’apprentissage par renforcement en contexte (ICRL) pour les LLM, qui aide à caractériser le comportement en contexte et permet de diriger rapidement les LLM sans mises à jour explicites, ce qui conduit à un apprentissage en ligne, interactif et continu, ainsi qu’à des conventions ad hoc.

Quentin Bertrand a conclu la journée par un tutoriel au cours duquel les participants ont codé des multi-agents jouant au dilemme du prisonnier itératif. Il a souligné la difficulté de favoriser la coopération entre les agents et a fait remarquer que la coopération n’est pas toujours une caractéristique souhaitable, car elle peut conduire à la collusion. L’orientation future consiste à modéliser la coopération dans des environnements complexes avec plus de joueurs, plus d’actions et des espaces d’états plus vastes, dans l’espoir que le RL profond puisse relever ces défis.

C’est dans la boîte ! Prochainement : Ivado animera :

1^er atelier : Évaluer et améliorer les capacités et la sécurité des agents, du 3 au 6 octobre 205

2^e atelier : Déploiement d’agents autonomes : leçons, risques et impact dans le monde réel, du 17 au 20 novembre 2025

Retour à tous les articles