Développer des agents véritablement robustes et compétents, capables d’interagir, d’éviter l’exploitation et de trouver des solutions prosociales.

Vision

Envisager un avenir avec un internet peuplé d’agents basés sur de grands modèles de langage (LLM) et des routes remplies de véhicules autonomes nécessite de prendre en compte la manière dont ces agents interagissent et la nature de ces systèmes d’interaction. C’est pourquoi notre vision est d’aborder et d’explorer les défis qui émergent dans les interactions multi-agents, en contribuant à leur réalisation sûre et éthique.

Objectifs

Exploiter les LLM pour développer et déployer des agents d’intelligence artificielle qui prennent des décisions et agissent pour le compte de particuliers et d’entreprises. Garantir la robustesse et la fiabilité des agents basés sur les LLM pour un déploiement réussi. Améliorer la capacité des agents basés sur les LLM à interagir efficacement avec les humains et les autres agents.

Axes de recherche

Axe 1 : Fondements des systèmes d’IA multi-agents

Contribuer aux thèmes fondamentaux que sont l’apprentissage par renforcement, la construction de modèles du monde et la théorie des jeux afin d’améliorer les interactions entre les agents de l’IA. Se concentrer sur la construction de meilleurs modèles du monde en explorant le raisonnement causal, en améliorant l’estimation de l’incertitude et en utilisant les LLM et d’autres modèles de base comme les modèles de langage de vision (VLM) en tant qu’interprètes avec des capacités de raisonnement de bon sens.

Axe 2 : Faire progresser la coopération multi-agents grâce à de meilleurs algorithmes d’apprentissage

Cet axe explore le développement d’algorithmes d’apprentissage par renforcement (RL) multi-agents, en se concentrant sur les cas de somme générale où les agents ne sont ni purement compétitifs ni coopératifs. Dans ce contexte, les considérations relatives à la théorie des jeux deviennent essentielles pour l’évolution de la dynamique d’interaction. L’accent sera mis sur le développement de nouvelles méthodes de formation de l’adversaire qui prennent en compte les autres agents et leurs intérêts lorsqu’ils apprennent à interagir.

Axe 3 : Communication multi-agents et LLM

Cet axe examine le développement et l’apprentissage de stratégies de communication multi-agents et leur rôle dans la coordination et la manipulation des agents. Il se concentre à la fois sur (1) les notions fondamentales de communication entre agents et (2) l’utilisation du langage naturel par les agents dotés de LLM et leur interaction.

Axe 4 : Modélisation du monde multi-agents

Cet axe vise à explorer les avantages potentiels de doter les agents de la capacité de modéliser explicitement leur environnement, y compris les croyances et les intentions (c’est-à-dire une théorie de l’esprit) des autres agents coexistant dans l’environnement.

Défis

Incertitude et généralisation : L’un des grands défis de la création d’agents utiles dans le monde réel est de les construire de manière à ce qu’ils puissent résoudre un large éventail de tâches lorsqu’ils reçoivent des commandes non structurées. Ce défi dépend de la capacité de généralisation de l’agent formé.

Adaptabilité à différents environnements : Nos domaines d’application sont divers, couvrant les soins de santé, la découverte de médicaments, le chauffage, la ventilation et la climatisation, la conduite autonome, et les agents web basés sur LLM interagissant avec les personnes, où les agents doivent être capables d’interagir efficacement dans tous ces environnements complexes.

Implications sociales et sociétales : Garantir des mécanismes qui encouragent les agents à équilibrer l’intérêt personnel et le bien social.

Impact anticipé

  • Avoir un impact à long terme sur les fondements de l’interaction avec les agents d’intelligence artificielle.
  • Développer des systèmes généralistes d’apprentissage et de planification qui peuvent rapidement aider les gens dans n’importe quelle tâche.
  • Améliorer les interactions multi-agents dans les scénarios où les agents ont des objectifs contradictoires.
  • Favoriser la collaboration et la reproductibilité scientifique en publiant notre code et nos recherches.
  • Faciliter les transferts de technologie vers l’industrie.

Équipe de recherche

Coresponsables

Aaron Courville
Université de Montréal
Gauthier Gidel
Université de Montréal
Doina Precup
Université McGill

Chercheuses et chercheurs

Conseillère à la recherche

Jacqueline Sanchez : jacqueline.sanchez@ivado.ca