Actualités
5 janvier 2026
Quand l’IA devient agentique : leçons, risques et impact dans le monde réel | Perspectives issues du 2e atelier IVADO
Un résumé d’Alejandra Zambrano (Mila)
Jour 1
Introduction
La journée a débuté par un discours de bienvenue de Danilo Bzdok, Co-Directeur, Programmes de recherche et relations avec les membres académiques à IVADO. Il a commencé par remercier chaleureusement tous les chercheurs dont le travail et l’engagement ont rendu cet atelier possible. Danilo a souligné comment les dix regroupements stratégiquement organisés par IVADO ont positionné le consortium comme un leader dans la recherche canadienne en IA. Ces pôles de recherche aident les chercheuses et chercheurs à se connecter, à collaborer et à s’intégrer avec fluidité aux communautés aux intérêts similaires.
Si tout cela vous semble passionnant, Danilo a également pris soin de présenter toutes les possibilités de participation, des bourses postdoctorales aux opportunités pour les étudiants de premier cycle. La porte est grande ouverte.
Ensuite, Siva Reddy (Université McGill, Mila), l’un des principaux piliers de cet atelier, a accueilli les participants dans une ambiance chaleureuse et informelle qui a immédiatement donné le ton de l’événement. Il nous a rappelé que si les conférences sont excellentes pour la visibilité, les ateliers offrent quelque chose de sans doute plus précieux : un environnement soudé où l’apprentissage, la discussion et la collaboration se font plus naturellement..
10h– 10h45 : Evaluating System-Level Reasoning in LLM Agents
Jacob Andreas (MIT)
Jacob Andreas a ouvert la première session avec une question qui est au cœur de la recherche sur l’IA : « Comment les machines devraient-elles apprendre ? » Devraient-elles apprendre à partir d’ensembles de données ? Ceux-ci peuvent être coûteux à créer et héritent souvent des biais de leurs annotateurs. Devrions-nous nous fier à des prompts? Cette approche est fragile et dépend trop de l’ingénierie humaine.
L’équipe de Jacob explore une autre voie, fondée sur quelque chose de fondamentalement humain : poser des questions. Leurs recherches visent à déterminer si un agent peut apprendre à réduire l’incertitude simplement en identifiant et en posant les bonnes questions. Ce faisant, l’agent peut découvrir ce que l’utilisateur souhaite réellement.
Les premiers résultats suggèrent que le fait de poser des questions aide les agents à découvrir les intentions et les préférences des utilisatrices et utilisateurs plus efficacement que le suivi traditionnel des instructions. La question qui se pose naturellement est la suivante : pouvons-nous créer des agents capables de raisonner dans l’incertitude sans incitation explicite ?
#agentsia #interactionentrehumainsordinateurs #raisonnement #alignement
10h45 – 11h30 : Don’t Forget the User: Balancing the Scales in Agentic Training and Evaluation
Seraphina Goldfarb-Tarrant (Cohere)
Seraphina Goldfarb-Tarrant, responsable de la sécurité chez Cohere, a poursuivi sur le thème du questionnement critique, mais cette fois-ci, elle a inversé la perspective. Nous consacrons tellement d’efforts à rendre les agents plus utiles que nous oublions souvent de poser une question fondamentale, comme le suggère Seraphina : « Utiles pour qui ? » « Qui est exactement « l’utilisateur » que nos systèmes sont censés servir ? »
Ce changement de perspective a conduit à deux questions clés : les LLM peuvent-ils simuler avec précision des locuteurs non américains et non anglophones ? (Divulgachage : pas vraiment.) Et les préférences exprimées par les utilisatrices et utilisateurs pour certains plans correspondent-elles réellement à ce qui s’avère le plus utile ? (Étonnamment, la réponse est également non.)
Son message était clair : nous ne pouvons pas créer des agents alignés et sûrs si nous ne comprenons pas la diversité, les attentes et l’expérience vécue des utilisatrices et utilisateurs réels.
#sécuritéia #biaisia #alignement
13h45 – 14h30 : Memorization: Myth or Mystery?
Verna Dankers (Mila, McGill University)
Avec une présentation dynamique et captivante, Verna Dankers nous a invités à découvrir le monde de la mémorisation dans les LLM, un sujet souvent considéré comme une boîte noire mystérieuse. Ses travaux remettent en question les interprétations simplistes faites par le passé sur la mémorisation : alors que certains modèles mémorisent facilement des modèles qu’ils ne devraient pas, d’autres ne parviennent pas à mémoriser ce qui semble pourtant simple. Les recherches de Verna explorent le comment, le où et le pourquoi de la mémorisation.
La principale conclusion est que les réponses ne sont presque jamais tout noir ou tout blanc. La mémorisation se produit-elle dans les premières couches ou dans les dernières couches ? Un peu des deux. Le changement de couche affecte-t-il la mémorisation ? Oui pour certaines tâches, non pour d’autres. La mémorisation est-elle un mythe ou un mystère ? D’une certaine manière, les deux.
#mémorisation
14h30 – 15h15 : Towards Scalable and Actionable Interpretability
Yonatan Belinkov (Technion – Israel Institute of Technology)
S’appuyant sur l’intervention de Verna, Yonatan Belinkov, membre de l’Institut israélien de technologie, a établi un lien entre la mémorisation et la question plus large de l’interprétabilité. Il y a certaines choses que nous ne voulons tout simplement pas que les modèles mémorisent, en particulier les données sensibles, ce qui fait de la compréhension et du contrôle du comportement de mémorisation une priorité essentielle en matière de sécurité.
Yonatan nous a présenté l’ensemble croissant de méthodes d’interprétabilité qui tentent « d’ouvrir » la boîte noire, en modifiant les composants architecturaux afin de comprendre et d’influencer le comportement des modèles.
Il a surtout relié ces idées aux agents IA. Les agents ne sont pas seulement des consommateurs passifs de modèles, ils peuvent contribuer activement à l’élaboration de critères de référence en matière de sécurité et de mémorisation. Leur capacité à agir, à explorer et à produire des évaluations structurées pourrait accélérer la recherche sur l’interprétabilité elle-même.
#sécurité #interprétabilité #mémorisation
15h15 – 15h45 : Recap. Discussion Audience/ G. Speakers
La journée s’est terminée par une discussion de groupe animée autour de l’interprétabilité : ses objectifs, ses limites, ses risques et le manque flagrant de méthodes d’évaluation robustes. Les participantes et participants ont débattu de la question de savoir si l’interprétabilité devait donner la priorité à la compréhension ou à l’intervention, et comment nous pourrions construire des systèmes plus sûrs alors que nous avons encore du mal à définir ou à mesurer l’interprétabilité elle-même.
Jour 2
Si le premier jour était consacré à la compréhension des agents et des modèles qui les sous-tendent, le deuxième jour avait un thème sous-jacent très clair : l’ambiguïté. Chaque intervention revenait sur l’idée que les humains transmettent des valeurs, des règles et des attentes à nos systèmes, même si nos propres normes, perspectives et interprétations changent constamment. Cela devient particulièrement difficile lorsque nous ne comprenons pas encore pleinement ce qui détermine le comportement de modèles complexes tels que les LLM.
10h – 10h45 : Building Better Rules and Optimization Targets for AI Agents
Peter Henderson (Princeton University)
Peter Henderson, professeur adjoint à l’université de Princeton, a commencé par raconter une histoire de science-fiction « amusante » se déroulant dans un univers parallèle où les robots et les humains coexistent pacifiquement grâce à un ensemble de règles conçues pour prévenir tout préjudice. Tout s’effondre lorsque les robots découvrent des failles dans ces règles et finissent par conquérir l’humanité. Les recherches de Peter visent à éviter à tout prix ce scénario et à demander au public s’il est possible de créer des « commandements de l’IA », un ensemble de règles universelles garantissant la sécurité et l’utilité de tous les modèles. La réponse courte est la suivante : les humains ont déjà du mal à accomplir cette tâche, il est donc encore plus difficile d’attendre des machines qu’elles la réalisent à la perfection.
Peter nous a présenté des concepts issus de la théorie juridique, en particulier la manière dont les tribunaux débattent de la formulation des lois et gèrent l’ambiguïté juridique. Ce système est imparfait, mais fonctionnel, et soulève des questions difficiles. Ces méthodes pourraient-elles fonctionner pour les agents IA ? Comment concevoir des règles aussi claires que possible ? Et surtout, comment présenter ces règles aux agents afin qu’ils n’exploitent pas les failles ? Son exposé a mis en évidence à quel point ce problème devient épineux et complexe lorsqu’il est transposé à la gouvernance des machines.
#sécuritéia #agentsia #théorielégale #alignement
10h45 – 11h30 : Reality is Adversarial: Towards Robust Real-World Agents
Max Bartolo (Google DeepMind)
Max Bartolo, de Google DeepMind, nous a présenté un bref rappel historique du NLP : des premiers systèmes de questions-réponses qui se contentaient d’extraire des segments, aux ensembles de données qui ont poussé les modèles vers un raisonnement plus sophistiqué, jusqu’aux LLM actuels entraînés à partir des commentaires humains. Il a ensuite surpris le public avec des conclusions qui remettent en question de nombreuses intuitions des chercheurs.
Par exemple, les commentaires humains ne sont pas toujours la « référence absolue » : les gens préfèrent souvent des réponses qui ne sont pas correctes, car elles se présentent sous une forme qu’ils « apprécient davantage » ou « trouvent plus lisible ». Même quelque chose d’aussi basique que la tokenisation, généralement considérée comme acquise, peut influencer considérablement le comportement des modèles d’une manière inattendue. À travers ces exemples, Max a illustré pourquoi la création de systèmes agentifs robustes nécessite plus que de bonnes intentions : elle exige une annotation minutieuse, des choix de tokenisation réfléchis et des investissements dans des capacités telles que l’appel d’outils.
#agentsia #alignement #raisonnement #tokenization #commentaireshumains
11h30 – 12h : Recap. Discussion Audience/ G. Speakers
La session de récapitulation a convergé vers un thème majeur : la personnalisation. Devrions-nous personnaliser les modèles afin d’éviter de les limiter à une seule culture, langue ou vision du monde ? Ou devrions-nous limiter certains types de personnalisation afin que les modèles puissent maintenir des limites éthiques cohérentes ? Le groupe a débattu de la question de savoir où ces limites devraient être fixées et si une véritable personnalisation et des contraintes universelles peuvent coexister.
13h45 – 14h30 : AI for the World of Many: Pluralism as a Core Principle
Vinodkumar Prabhakaran (Google)
Au cours de la session de l’après-midi, nous avons eu la chance d’entendre un deuxième employé de Google : Vinodkumar Prabhakaran, chercheur scientifique chez Google. Son intervention a une nouvelle fois abordé la question de l’ambiguïté, cette fois dans le contexte de la sécurité et du pluralisme. Les êtres humains issus de cultures et de groupes démographiques différents perçoivent différemment les notions de danger, de sécurité et de pertinence. Une image ou une phrase qui semble profondément choquante dans un contexte culturel peut être tout à fait acceptable dans un autre.
Vinodkumar a souligné que cette diversité n’est pas un obstacle, mais une métadonnée essentielle. Les chercheurs doivent intentionnellement saisir ces différentes perspectives lorsqu’ils créent des ensembles de données. Il est crucial de comprendre les valeurs inhérentes aux données et de les traiter avec soin afin de réduire les stéréotypes et autres formes de biais dans les modèles.
#sécuritéia #biaisia #ensemblesdedonnéessurladiversité
14h30 – 15h15 : Human Extinction is Not the Worst that Could Happen
Helen Nissenbaum (Cornell Tech)
Helen Nissenbaum, professeure et directrice de la Digital Life Initiative à Cornell Tech, a prononcé un discours rafraîchissant qui sortait des sentiers battus de l’informatique. Avec un titre provocateur, elle a souligné pourquoi l’éthique et la sécurité doivent être au cœur du développement de l’IA, non pas comme des considérations secondaires, mais comme des principes fondamentaux.
En mettant l’accent sur la confidentialité, la responsabilité, la désinformation et l’alignement des valeurs éthiques, elle a soulevé des questions urgentes sur la manière dont les systèmes d’IA façonnent notre paysage social et informationnel. Comme l’a dit Helen, la vraie question est la suivante : comment créer un environnement informationnel digne de confiance ?
#sécuritéia #éthiqueia #confidentialitéia #désinformation #iafiable
15h15 – 15h45 : Panel: AI Agents: Slop or Substance?
Max Bartolo (Google DeepMind), Jacob Andreas (MIT), Vinodkumar Prabhakaran (Google),Helen Nissenbaum (Cornell Tech) & Peter Henderson (Princeton University)
La journée s’est terminée par une table ronde très intéressante visant à déterminer si l’engouement actuel pour les agents IA est justifié. Les agents sont-ils « médiocres » ou offrent-ils une réelle valeur ajoutée ? Avant d’entrer dans le vif du sujet, les participants ont judicieusement commencé par définir ce qu’est un agent et ce que signifie « médiocre » dans ce contexte. Un agent qui commet des erreurs est-il intrinsèquement médiocre ? Ou les erreurs sont-elles des étapes nécessaires vers un comportement efficace ?
La conversation a évolué vers une discussion sur l’avenir des écosystèmes agents. Les négociations, les accords et les interactions pourraient-ils un jour être entièrement gérés par des réseaux d’agents communiquant de manière autonome ? Quels pourraient être les avantages et les risques ? Ferions-nous confiance à un agent pour nous représenter ?
C’était une façon fascinante et stimulante de terminer la journée, en regardant certains des esprits les plus brillants débattre de l’avenir vers lequel l’IA pourrait nous mener, et en laissant pleinement matière à réflexion à nos cerveaux.
#agentsia #succèsia
Jour 3
Le troisième jour n’était certainement pas pour les faibles. Après deux journées intenses de discussions, nous avons terminé sur une note encore plus forte, en nous plongeant dans les systèmes multi-agents, la coopération, les dilemmes sociaux, la dérive des valeurs et la question omniprésente de la sécurité.
10h – 10h45 : Cooperation and Collusion of Artificial Agents
Gauthier Gidel (IVADO, Université de Montréal, Mila)
Gauthier Gidel, membre académique principal de Mila et professeur à l’Université de Montréal, s’est assuré de nous réveiller avec une bonne dose de mathématiques issues de la théorie des jeux. À l’aide de variantes du classique dilemme du prisonnier, il a donné une masterclass sur la coopération et la collusion chez les agents artificiels.
Gauthier a exploré comment différentes conditions environnementales peuvent être ajustées afin que les agents « désapprennent » la défection et apprennent à coopérer, pour finalement atteindre un équilibre coopératif stable. Après les discussions de la veille, cette conférence semblait être une suite logique, mais désormais fondée sur un raisonnement formel.
#agentsia #théoriedujeu #collaborationdagents #systèmesmultiagents
10h45 – 11h30 : Learning to Cooperate: Training AI Agents for Social Dilemmas
Aaron Courville (IVADO, Université de Montréal, Mila)
L’intervention de Gauthier a naturellement laissé place à celle d’Aaron Courville, l’une des légendes de Mila. Aaron a repris le cadre théorique et l’a appliqué à des scénarios multi-agents réels, dans lesquels l’action d’un agent peut directement profiter ou nuire à un autre. Cela met en évidence une faille majeure dans les approches naïves du RL : ce qui fonctionne pour un seul agent échoue souvent lorsque plusieurs agents doivent interagir.
Cela soulève des questions inévitables. Comment concevoir des systèmes dans lesquels les agents négocient ? Peut-on éviter les scénarios où un agent exploite l’autre ? Ou, comme l’a suggéré Gauthier, peut-on apprendre aux agents à coopérer sincèrement pour un gain partagé ?
Aaron a présenté AdAlign, l’approche de son équipe qui montre qu’une coopération significative est possible avec un régime d’entraînement adapté.
#agentsia #théoriedujeu #collaborationdagents #systèmesmultiagents #agentsdanslavraievie
11h30 – 12h : Recap. Discussion Audience/ G. Speakers
Le récapitulatif s’est concentré sur la coopération dans les déploiements réels. Avec les méthodes d’alignement actuelles, les agents sont-ils réellement capables de coopérer de manière significative ? Comment communiquer l’importance de la coopération lorsque les agents ne partagent pas nécessairement les mêmes objectifs ou le même contexte ?
13h45 – 14h30 : Value Drifts: Tracing Value Alignment During LLM Post-Training
Siva Reddy (IVADO, McGill University, Mila)
L’alignement a été un thème récurrent tout au long de l’atelier, mais Siva Reddy a été le premier à présenter ce que signifie réellement un modèle aligné, ainsi que le moment et la manière dont cet alignement se produit.
Siva a remis en question les hypothèses largement répandues concernant la post-formation. De nombreux participants s’attendaient à ce que l’apprentissage par renforcement à partir du retour d’information humain (RLHF) soit le principal moteur de l’alignement comportemental. De manière surprenante, Siva a montré que la phase discrète et souvent négligée du SFT (Supervised Fine-Tuning), l’étape précédant l’optimisation des préférences, a le plus grand impact sur la formation et la dérive des valeurs.
Son exposé a clairement montré une chose : l’alignement des valeurs est un processus dynamique, loin d’être résolu, et certainement pas encore une science exacte.
#alignement #valeurs #postentrainement
14h30 – 15h15 : LLM to Agent Safety: Emerging Societal and Technical Risks
Nouha Dziri (Allen Institute for AI (AI2))
Nouha Dziri, chercheuse à l’Allen Institute for AI, nous a rappelé à quel point les capacités de l’IA progressent rapidement et à quel point la recherche en matière de sécurité doit suivre le rythme. Elle a présenté les impressionnants benchmarks de jailbreak élaborés par son équipe, illustrant à la fois la créativité des utilisateurs malveillants et la fragilité des mesures de sécurité actuelles.
Son intervention a réitéré une question qui a été soulevée tout au long de l’atelier : comment rendre les modèles sûrs tout en conservant leur utilité ? Et comment détecter les dangers cachés dans des tâches qui semblent inoffensives ?
Nouha a souligné que les récents développements en matière d’IA ne sont pas tous « roses ». Ils s’accompagnent de risques sociaux importants : effondrement de la pensée, dépendance excessive, attachement émotionnel, perte d’emplois, etc. Elle a fait valoir que nous devons optimiser avec soin les objectifs ouverts, car ils peuvent conduire à des comportements mal calibrés et à un effondrement du raisonnement.
Son message final : nous devons accepter l’ambiguïté, et non prétendre qu’elle n’existe pas.
#sécuritéia #risquesia
15h45 – 16h30 : Building Personalized AI Assistants: From Task Execution to Human Alignment
Jieyu Zhao (University of Southern California)
Après l’exposé de Nouha sur la sécurité, Jieyu Zhao a présenté les agents informatiques (CUA) et leurs forces et faiblesses. Leur plus grande limite aujourd’hui, comme elle l’explique, est la compréhension de l’intention de l’utilisateur, en particulier lorsqu’il s’agit d’informations contextuelles nuancées.
Jieyu envisage les agents et les humains comme des collaborateurs plutôt que comme des relations patron-employé. Mais pour y parvenir, les agents doivent comprendre les intentions explicites et implicites des utilisateurs. Cela nécessite la création de nouveaux modèles et de nouveaux critères de référence ciblant spécifiquement la compréhension des intentions des utilisateurs, en particulier pour les nuances culturelles, un domaine dans lequel nous manquons encore de méthodes d’évaluation fiables.
#agentsia #cua #collaborationhumainagent
16h30 – 16h50 : Recap. Discussion Audience/ G. Speakers
Pour conclure cet atelier en cette période festive, la discussion finale a débuté par une question percutante : « Si vous pouviez former à nouveau les plus grands LLM actuels à partir de zéro, que feriez-vous différemment ? » Cela a déclenché un débat animé sur l’échelle des données de préformation, les objectifs qui vont au-delà de la simple précision et la menace imminente d’un effondrement des modèles où l’originalité devient une espèce en voie de disparition. Les intervenants ont souligné à quel point nous avons désespérément besoin de nouvelles données originales et de haute qualité pour que nos modèles restent robustes, diversifiés et créatifs.