Vers une IA de confiance : Façonner l’avenir technologique.

Vision

Les succès des grands modèles de langage (LLM), de la vision par ordinateur et des modèles génératifs de textes, d’images et de sons ont attiré une attention considérable pour les effets transformateurs qu’ils pourraient avoir sur la société – pensons à des applications telles que les voitures autonomes, les systèmes de tutorat par l’IA déployés dans des régions manquant de ressources, et les assistants personnels par l’IA. Cependant, les diffusions de LLM dépassent de loin les recherches approfondies sur leur sécurité. C’est pourquoi notre objectif est d’accélérer cette recherche indispensable au développement d’agents d’IA sûrs et fiables.

Objectifs

Les objectifs sont les suivants :

  • Identifier les comportements nuisibles qui surviennent lorsque les systèmes d’IA interagissent de plus en plus avec d’autres agents (utilisateurs humains ou autres agents LLM)
  • Comprendre pourquoi les systèmes d’IA prennent les décisions qu’ils prennent
  • Développer des approches algorithmiques pour orienter les agents d’IA vers des comportements sûrs et idéalement prosociaux.

Axes de recherche

À cette fin, nous proposons un programme de recherche sur la sécurité de l’IA qui divise ce sujet ambitieux et vaste en trois axes concrets :

Axe 1 : Évaluer et atténuer les préjugés et les comportements dangereux en matière de gestion du cycle de vie.

Se concentrer sur deux types de dommages à court terme que nous risquons avec les systèmes d’IA modernes :

  • Les biais de données nuisibles amplifiés par les LLM.
  • Les vulnérabilités des agents web LLM qui sont exploitables par des adversaires, y compris d’autres agents web LLM qui découvrent des politiques exploitables.
  • Les comportements indésirables des agents qui interagissent avec le monde physique dans des scénarios invisibles.

Axe 2 : Améliorer l’interprétabilité du LLM.

  • Expliquer les prédictions des LLM en améliorant les auto-explications des LLM, en apprenant les abstractions des LLM et en visualisant les adaptations des réseaux neuronaux.
  • Développer des modèles qui sont intrinsèquement interprétables, tels que les modèles symboliques.

Axe 3 : Promouvoir des comportements sûrs et robustes dans des environnements multi-agents avec des LLMs.

  • De nouvelles évaluations de la dynamique multi-agents avec des agents LLM.
  • Développement d’algorithmes pour l’apprentissage multi-agents.
  • L’incitation au bien social à l’aide de modèles causaux.

Défis

Nous vivons une époque où les entreprises mettent sur le marché des LLM de plus en plus grands qui se surpassent les uns les autres en termes de critères de référence et agissent même sur le web. Alors que les grands systèmes d’IA deviennent de plus en plus semblables à des agents, plusieurs chercheurs soulignent le risque croissant de dommages catastrophiques. À ce rythme, nous pourrions développer à l’avenir des agents qui trompent et manipulent les humains, et des signes de ce comportement inquiétant apparaissent déjà. Déjà, les LLM génèrent régulièrement des faits inventés (souvent appelés « hallucinations »), amplifient les stéréotypes nuisibles dans les données d’apprentissage et ne montrent pas de signes convaincants d’un modèle cohérent du monde, comme le font d’autres agents intelligents.

Impact anticipé

Ces efforts aboutiront à des résultats significatifs, notamment des publications dans des revues de premier plan, le développement de bibliothèques de logiciels libres et des possibilités de développement de la communauté. Nous offrirons des possibilités de formation aux experts par l’intermédiaire d’ateliers et d’universités d’été et nous aurons un impact sur le grand public grâce à des efforts d’éducation sur l’utilisation sûre et responsable de l’IA. Notre équipe devrait jouer un rôle clé en conseillant le gouvernement sur les questions de sécurité de l’IA et en fournissant des informations précieuses sur les futures réglementations.

Équipe de recherche

Coresponsables

Yoshua Bengio
Université de Montréal
Chris Pal
Polytechnique Montréal
Dhanya Sridhar
Université de Montréal

Chercheuses et chercheurs

Conseillère de recherche

Dana F. Simon : dana.simon@ivado.ca