12 mai 2025

Vers une IA plus sûre : retour sur l’atelier IVADO-Simons dédié à la sécurisation des modèles de langage

Dans un contexte d’avancées fulgurantes en intelligence artificielle, IVADO et l’Institut Simons de Berkeley ont uni leurs efforts lors d’un atelier visionnaire sur les modèles de langage à sécurité garantie. Cette rencontre collaborative a exploré des approches novatrices pour assurer que les modèles de langage superintelligents demeurent sécuritaires, éthiques et alignés avec les valeurs humaines.

S’appuyant sur des fondements théoriques incluant les perspectives bayésiennes et d’apprentissage par renforcement, l’atelier a établi des ponts entre les défis actuels et les solutions d’avenir.

Il s’agissait du troisième atelier majeur de notre semestre thématique consacré aux grands modèles de langage et aux architectures Transformer. L’événement a rassemblé des spécialistes de renom travaillant à l’intersection entre l’intelligence artificielle, la cybersécurité et l’informatique théorique du 14 au 18 avril..

IVADO a parrainé une délégation de 32 membres du corps professoral et étudiant venus de partout au Canada pour participer à cette importante rencontre. Plusieurs personnes parmi notre communauté étudiante et nos conférencières et conférenciers ont généreusement partagé leurs impressions et réflexions que nous mettons en lumière ici. Leurs perspectives offrent un aperçu des thèmes clés, des idées et des orientations émergentes qui ont nourri les conversations tout au long de la semaine.

Les grands axes de réflexion qui ont émergé sont :

Au-delà de la phase d’entraînement : des garde-fous à tous les étages

Un thème récurrent : le besoin urgent de mécanismes de sécurité qui s’étendent au-delà de la phase d’entraînement. Des présentations comme celle de Boaz Barak sur « La sécurité de l’IA via le calcul au moment de l’inférence »  et la session d’Ethan Perez intitulé « Contrôler les IA non fiables avec des moniteurs » ont inspiré des discussions sur des stratégies pratiques pour intégrer une supervision dynamique en temps réel dans les LLM déployés afin de détecter et d’atténuer les risques au-delà de leur conception initiale.

Robustesse : une nécessité désormais incontournable

Les vulnérabilités du monde réel, comme les mécanismes de contournement des restrictions (“jailbreaks”) et les attaques adverses, ne sont plus spéculatives. Les présentations de Gauthier Gidel sur l’apprentissage antagoniste et de Siva Reddy sur la robustesse face aux tentatives de détournement ont démontré la nécessité de tester systématiquement les modèles contre les menaces adverses. Ce domaine doit désormais être priorisé dans le développement des modèles de langage.

Des présentations supplémentaires de Jacob Steinhardt, Aditi Raghunathan et Dan Hendrycks ont apporté des perspectives précieuses sur la généralisation, la robustesse face aux changements de distribution et les limites des indices de références actuels, démontrant à quel point ces défis sont fondamentaux pour construire des systèmes d’IA résilients.

Alignement : dépasser la simple optimisation des préférences

Les méthodes d’alignement traditionnelles reposant fortement sur l’optimisation simple des préférences ont été remises en question. En particulier, lors des sessions avec Yoshua Bengio, Dawn Song et Geoffrey Irving, qui ont souligné l’importance d’intégrer des normes humaines plus élevées, des valeurs et des principes sociétaux dans les objectifs des LLM.  Des réflexions démontrant le nécessaire recadrage de la définition et de l’évaluation du succès en matière d’alignement.

La présentation de Ryan Lowe intituée « L’alignement intégral » a permis d’explorer comment les stratégies d’alignement technique peuvent être informées par des objectifs sociétaux plus larges, incitant à réfléchir de manière holistique aux défis multi-niveaux de la construction de LLM qui sont à la fois utiles et alignés sur les valeurs.

Systèmes multi-agents : nouveaux défis, nouvelles complexités

L’évolution des LLM vers des entités autonomes capables d’interactions complexes soulève d’importants enjeux de sécurité. Cette préoccupation centrale a émergé lors des échanges sur les systèmes multi-agents, où Georgios Piliouras et Aaron Courville ont présenté des cadres d’analyse révélateurs. Leurs travaux sur les jeux de débat et l’encadrement théorique des systèmes d’IA démontrent comment ces environnements génèrent imprévisibilité et vulnérabilités inédites. Face à ces défis, une refonte des approches de sécurité s’impose, dépassant le simple alignement individuel des modèles pour anticiper les dynamiques émergentes de ces systèmes interconnectés.

Vers des garanties formelles : quand les mathématiques et l’IA se rencontrent

La fusion des techniques cryptographiques et de l’informatique théorique avec la sécurité de l’IA s’impose désormais comme une tendance majeure. Les discussions entre spécialistes de vérification formelle révèlent une évolution vers des garanties mathématiquement fondées contre les vulnérabilités des LLM, notamment les « backdoors » et autres exploits.

Shafi Goldwasser et Geoffrey Irving ont enrichi ce dialogue en proposant des approches complémentaires aux méthodes formelles de sécurité, inspirant ainsi de nouvelles synergies entre cryptographie et sécurité de l’IA.

En parallèle, Roger Grosse et Dhanya Sridhar ont mis en lumière la dimension cruciale de l’interprétabilité, Mme Sridhar explorant les perspectives causales tandis que M. Grosse établissait des liens fondamentaux entre interprétabilité, comportement des modèles et conception sécurisée.

Gouvernance des IA avancées : un enjeu sociétal majeur

Les progrès technologiques doivent être accompagnés par l’innovation en matière de gouvernance, ont rappelé les chercheurs. Les discussions comme celles de Yoshua Bengio sur les principes de bien public et d’autres, ont souligné la nécessité de mettre en place des incitations, des mécanismes de contrôle et une coopération internationale pour veiller à ce que le développement de l’IA d’avant-garde reste en phase avec les valeurs et les intérêts de la société.

L’interruption d’une présentation par un groupe de citoyens demandant l’arrêt des recherches en IA a cristallisé les tensions émergentes entre progrès technologique et anxiété sociale. Un événement qui a souligné l’urgence d’instaurer un dialogue ouvert et inclusif sur la gouvernance de ces technologies transformatrices, désormais au cœur des préoccupations publiques.

Une communauté scientifique unie face aux défis

L’événement a été marqué par des échanges d’une profondeur remarquable, témoignant d’un véritable esprit collaboratif où les scientifiques ont questionné leurs hypothèses et partagé leurs réflexions naissantes. Un puissant rappel que la sécurité de l’IA constitue autant un défi technique qu’un enjeu collectif.

Nos plus sincères remerciements aux conférenciers, participants et organisateurs, notamment Siva Reddy, Yoshua Bengio, et Umesh Vazirani, pour leur leadership dans l’organisation de l’événement. Un merci tout particulier également au personnel et à la direction de l’Institut Simons pour avoir chaleureusement accueilli l’atelier et créé un environnement aussi inspirant que collaboratif.

Prolongez l’expérience : toutes les conférences en ligne

Visionnez les conférences de l’atelier sur la sécurisation des modèles de langage.

Et maintenant ?

IVADO est fier de soutenir la relève scientifique travaillant à l’intersection entre l’IA sûre et responsable. Nous avons hâte de voir comment les idées issues de cet atelier façonneront la recherche, les politiques et l’innovation dans les années à venir.

Fort de cet élan, IVADO inaugurera à l’automne un nouveau semestre thématique intitulé « Les agents LLM autonomes : risques et défis scientifiques ». Ce programme poursuivra l’exploration des questions cruciales liées aux capacités et à la sécurité des agents d’IA de nouvelle génération. Les chercheuses et chercheurs souhaitant y participer trouveront tous les détails et modalités d’inscription en suivant ce lien : notre prochain semestre thématique sur les agents autonomes.