Actualités
24 février 2026
Repenser le raisonnement de l’IA à travers le prisme de la cognition humaine
Un résumé de Raymond Chua, doctorant à l’Université McGill et au Mila.
Cette série d’articles marque le lancement du semestre thématique 2026 d’IVADO – Ingrédients computationnels du raisonnement, une initiative qui rassemble des chercheuses et chercheurs en intelligence artificielle, en sciences cognitives, en neurosciences, en philosophie et en sciences sociales afin d’explorer comment mieux comprendre et, à terme, combler le fossé entre le raisonnement humain et celui des machines.
Plusieurs questions fondamentales ont guidé les discussions : les machines raisonnent-elles de manière comparable aux humains ? Les systèmes d’IA devraient-ils être modélisés d’après la cognition ou les processus de développement des enfants ? Pourquoi le raisonnement de l’IA semble-t-il fonctionner, et peut-on vraiment le qualifier de raisonnement ?
Au cours d’une série de conférences et de tables rondes, les participantes et participants ont abordé ces questions de manière critique, repartant avec une meilleure compréhension des défis à relever et une inspiration renouvelée pour leurs propres programmes de recherche.
Jour 1
Introduction
Aaron Courville, directeur scientifique d’IVADO, a ouvert la première journée de l’atelier Les bases cognitives du raisonnement (dans l’esprit et l’IA) par une présentation d’IVADO, le principal consortium interdisciplinaire canadien de recherche, de formation et de transfert en IA, basé à l’Université de Montréal. Guillaume Lajoie, membre du comité organisateur de ce semestre thématique, a ensuite planté le décor en présentant le thème central, qui consiste à comprendre les fondements cognitifs du raisonnement dans les systèmes biologiques et artificiels. Il a souligné que cet événement est le premier volet d’une série de trois ateliers. Alors que cette session se concentre sur les aspects cognitifs du raisonnement, les prochains ateliers aborderont respectivement ses perspectives mécanistes et sociales.
Alison Gopnik (UC Berkeley): Causal Learning and Empowerment in Cognitive Science and AI
Alison Gopnik, professeure de psychologie à l’Université de Californie à Berkeley et ancienne étudiante de l’Université McGill, a ouvert l’atelier par une conférence sur l’apprentissage causal et l’autonomisation dans les sciences cognitives et l’intelligence artificielle. Ses travaux portent depuis longtemps sur le développement des capacités de raisonnement causal chez les enfants, démontrant que même des enfants de quatre ans peuvent former des modèles causaux étonnamment sophistiqués du monde qui les entoure.
En revanche, les modèles linguistiques avancés (LLM) actuels ont encore du mal à apprendre véritablement les relations de cause à effet. Cet écart motive les recherches menées par son laboratoire sur la manière dont la motivation intrinsèque pourrait aider les systèmes artificiels à mieux découvrir la structure de leur environnement. Ils explorent en particulier le concept d’autonomisation, qui consiste à maximiser l’information mutuelle entre les actions d’un agent et leurs résultats, tout en encourageant la diversité dans le choix des actions. Ensemble, ces objectifs conduisent implicitement à une exploration structurée.
Étant donné que les êtres humains, en particulier les jeunes enfants, semblent naturellement maximiser leur autonomisation lors de l’exploration, doter les systèmes d’IA de principes similaires pourrait leur permettre d’acquérir des représentations causales plus profondes et plus significatives du monde.
Andrew Granville (Université de Montréal): Are the Reasoning Skills Being Developed by AI Producers Actually Reasoning Skills?
Andrew Granville, de l’Université de Montréal, a ensuite adopté une approche légèrement différente, plus philosophique, en s’inspirant des démonstrations mathématiques. Il s’est d’abord demandé si les mathématiques et l’intelligence artificielle générale (AGI) étaient plus liées que la plupart des gens ne le pensent. Fondamentalement, les machines peuvent-elles vraiment penser ?
Si tel est le cas, les stratégies d’IA peuvent-elles fonctionner avec des preuves mathématiques ? Enfin, et c’est peut-être le plus important, comment pouvons-nous mesurer l’intelligence ? Le raisonnement ? La résolution de problèmes ? L’apprentissage ? Ou l’adaptabilité ? Regardez cette conférence d’Andrew si vous vous êtes déjà demandé quel type d’intelligence pouvait émerger d’une machine.
Questions-réponses avec Alison Gopnik et Andrew Granville
La séance de questions-réponses a réuni Alison Gopnik et Andrew Granville, et les discussions avec le public ont porté principalement sur l’autonomisation et son influence sur les récompenses, ainsi que sur le rôle important que peuvent jouer les mathématiques dans le développement de l’intelligence générale.
Subbarao Kambhampati (Arizona State University): Anthropomorphization Sins in Modern AI (Or The Perils of Premature Application of the Lens of Cognition to LLMs)
Après les discussions passionnantes sur l’exploration et la mesure de l’intelligence qui ont eu lieu dans la matinée, Subbarao Kambhampati, de l’université d’État de l’Arizona, a orienté le débat vers une question plus fondamentale : dans quelle mesure les systèmes d’IA modernes sont-ils réellement capables de planifier ? Les humains excellent dans la planification à long terme, mais les LLM actuels possèdent-ils des capacités comparables ?
Malgré leurs performances impressionnantes, même les LLM les plus avancés ont du mal à planifier de manière autonome, en particulier lorsque les tâches nécessitent des horizons de planification plus longs. Les grands modèles de raisonnement (LRM), qui s’appuient sur des techniques supplémentaires telles que la chaîne de pensée et le réglage fin, montrent des améliorations mais restent confrontés à d’importants défis de généralisation.
L’un des aspects les plus stimulants de la conférence consistait à se demander si l’utilisation de jetons de raisonnement immédiat reflète véritablement des étapes de planification fidèles, ou si elle sert simplement de structure computationnelle qui améliore la précision sans représenter un véritable raisonnement. Cela soulève des questions profondes sur ce que signifie réellement « planifier » pour les systèmes d’IA.
Taylor Webb (IVADO, Mila, Université de Montréal): Emergent Symbol Processing in Transformer Language Models
Poursuivant sur le thème du raisonnement, Taylor Webb, de l’Université de Montréal, a expliqué comment son laboratoire étudie les fondements conceptuels du raisonnement dans les modèles linguistiques à grande échelle (LLM). Si les LLM semblent souvent présenter un comportement de type « récupération » et un raisonnement structuré similaire à celui des humains, une question centrale demeure : quels mécanismes au sein du réseau neuronal donnent naissance à ces capacités ?
Son équipe a proposé l’idée d’une architecture symbolique émergente, au sein de modèles de transformateurs. En analysant les circuits internes, ils ont identifié des formes de traitement symbolique, telles que l’abstraction, l’induction et la récupération, réparties sur différentes couches du réseau. Il est remarquable que ces capacités émergent sans aucun biais inductif symbolique explicite intégré à l’architecture.
Leurs conclusions suggèrent une distinction fonctionnelle entre les différentes têtes d’attention : les têtes d’abstraction et d’induction semblent capturer la similarité symbolique, tandis que les têtes de récupération capturent principalement la similarité au niveau des tokens. Des schémas similaires ont été observés non seulement dans des modèles avancés comme Llama 3, mais aussi dans les modèles de langage visuel (VLM), fournissant ainsi des preuves convergentes que le traitement structuré, de type symbolique, peut naturellement apparaître dans les systèmes d’IA modernes.
Steven Piantadosi (UC Berkeley): Cognition, Neuroscience, and What’s In-Between
Steven Piantadosi, de l’Université de Californie à Berkeley, a présenté un cadre convaincant pour relier les neurosciences, les sciences cognitives et le comportement. Son idée centrale est que, même si un système peut occuper de nombreux états neuronaux possibles, seules certaines distinctions entre ces états ont réellement de l’importance pour prédire le comportement futur. En analysant attentivement le comportement, nous pouvons déduire quels états neuronaux sous-jacents ont dû le soutenir.
Pour formaliser cela, il a revisité le concept des diagrammes cognitifs, proposé pour la première fois dans les années 1950. Ces diagrammes représentent des ensembles finis ou infinis d’états qui génèrent un comportement observable. Il est essentiel de noter que, pour tout modèle comportemental, il existe un diagramme cognitif minimal unique, qui est le plus petit ensemble d’états capable de reproduire le comportement sans perdre son pouvoir explicatif. Dans cette optique, la meilleure théorie est celle qui cartographie l’activité neuronale complexe sur cette structure minimale, en ne conservant que les distinctions pertinentes sur le plan comportemental.
Dans l’ensemble, ce cadre offre une approche déductive et fondée sur des principes permettant de déduire, à partir du comportement observé, la structure cognitive minimale nécessaire pour le produire, ce qui clarifie la manière dont nous relions les mécanismes neuronaux et la théorie cognitive.
Jour 2
Noah D. Goodman (Stanford University): Learning to Reason
Noah D. Goodman, professeur à l’université de Stanford, a ouvert la deuxième journée de l’atelier et présenté les travaux de son laboratoire sur la compréhension du raisonnement en entraînant des modèles de transformateurs à approximer les distributions définies par les réseaux bayésiens. Cette approche fournit un cadre contrôlé pour analyser ce que les modèles apprennent réellement lorsqu’ils semblent « raisonner ».
Une conclusion clé a été que la chaîne de pensée améliore les performances car elle agit comme un meilleur estimateur de densité de séquence, en particulier lorsqu’elle est combinée à des observations locales. Cependant, la structure de ce raisonnement diffère de la cognition humaine. Alors que les humains ont tendance à raisonner de manière dirigée et structurée, en utilisant souvent la recherche et le retour en arrière dans des tâches telles que l’arithmétique, le raisonnement par chaîne de pensée semble plus aléatoire.
Il a conclu par un parallèle intrigant avec l’apprentissage humain : tout comme la pratique améliore les performances humaines, les LLM peuvent également affiner leurs capacités en s’ajustant sur la base de traces de solutions correctes, suggérant ainsi les similitudes entre le processus d’apprentissage chez les humains et chez les machines.
Karim Jerbi (IVADO, Université de Montréal): Human Creativity vs. Language Models: New Insights from a Large-Scale Benchmarking Study in 100,000 Individuals
Karim Jerbi, professeur à l’Université de Montréal, a présenté les travaux récents de son laboratoire sur une question fondamentale : les modèles linguistiques à grande échelle (LLM) sont-ils vraiment créatifs ? Pour répondre à cette question, son équipe a comparé les LLM et les humains à l’aide de tâches standardisées d’évaluation de la créativité. Il est intéressant de noter que les résultats suggèrent que les modèles linguistiques les plus récents peuvent surpasser le participant humain moyen sur certains indicateurs de créativité. Comme prévu, l’augmentation de la température d’échantillonnage des modèles a encore amélioré leur production créative.
Cependant, une question plus nuancée demeure : comment les LLM se comparent-ils aux personnes qui obtiennent des scores élevés aux tests de créativité ? Regardez la vidéo pour le découvrir !
Questions-réponses avec Karim Jerbi, Noah Goodman et Ben Prystawski
Questions-réponses avec Karim Jerbi, Noah Goodman et Ben Prystawski, étudiant de Noah qui participe à l’atelier en personne. La discussion avec le public a principalement porté sur la question de savoir si l’IA peut avoir une intention en plus de la créativité, et sur les éléments manquants qui pourraient améliorer les capacités de raisonnement des modèles linguistiques à grande échelle (LLM).
Sari Kisilevsky (CUNY Queens College): Reason and Freedom
Sari Kisilevsky, philosophe au CUNY Queens College, a adopté une approche conceptuelle pour cartographier ce qu’elle a appelé l’espace des raisons, c’est-à-dire la structure qui sous-tend la notion même de raisonnement. Contrairement aux autres interventions de l’atelier, qui se sont principalement concentrées sur les algorithmes et les mécanismes cognitifs, son exposé a examiné les fondements normatifs et philosophiques du raisonnement lui-même.
Selon l’exposé de Sari, cet espace englobe des thèmes tels que l’unité, les croyances, l’action, la liberté et le « mythe du donné ». Elle a soigneusement décortiqué chacun de ces éléments, montrant comment ils ont conjointement façonné notre compréhension de la pensée rationnelle et ce que signifie réellement raisonner.
Eva Portelance (IVADO, HEC Montréal): What If AI Models Learned More Like Kids Do?
Eva Portelance, professeure à HEC Montréal, a exploré les parallèles entre la façon dont les enfants acquièrent le langage et celle dont les systèmes d’IA apprennent. Elle a souligné que les enfants s’appuient sur des biais inductifs, tels que les biais liés aux objets et aux formes, lorsqu’ils apprennent des mots. Cela soulève une question plus profonde : ces biais sont-ils innés ou apparaissent-ils à travers l’expérience ? Ses travaux suggèrent que des facteurs tels que les interactions sociales et le contexte de communication jouent un rôle crucial dans la formation de ces biais.
Elle a ensuite étendu cette discussion aux systèmes d’IA, en particulier aux modèles de réponse visuelle à des questions (VQA), en se demandant s’ils présentaient une dynamique d’apprentissage similaire. Il est intéressant de noter que ses conclusions suggèrent que ces modèles développent des schémas d’apprentissage similaires à ceux des humains. De plus, elle a montré que l’apprentissage conjoint sur des représentations structurées, en particulier lorsqu’il est combiné au bootstrapping, conduit à une plus grande efficacité d’apprentissage.
Laura Ruis (MIT): Hidden Computations: Planning and Reasoning in the Forward Pass
Laura Ruis, chercheuse postdoctorale au MIT, a examiné si les traces de raisonnement dans les grands modèles linguistiques sont fidèles aux calculs qu’ils effectuent réellement. Elle s’est notamment demandé si les LLM peuvent raisonner de manière latente, lorsque les structures ne sont pas représentées explicitement.
Ses conclusions suggèrent que les modèles de transformateurs entraînés à partir de zéro ne découvrent pas spontanément les stratégies de planification latentes. Cependant, ils peuvent apprendre à utiliser la planification latente lorsqu’ils y sont exposés pendant leur formation. Elle a ensuite cherché à savoir si les LLM pouvaient convertir les connaissances déclaratives en compétences procédurales. Il est intéressant de noter que l’utilisation de la chaîne de pensée semble faciliter cette généralisation déclarative en procédure, permettant aux modèles de mieux traduire les informations factuelles en raisonnement étape par étape.
Jour 3
Jieyu Zhao (USC): Evaluating the Social Intelligence of LLMs through Social Interactions
Jieyu Zhao, professeur d’informatique à l’Université de Californie du Sud, a ouvert la troisième journée de l’atelier en soulignant que l’un des principaux défis pour les LLM au cours de l’année à venir sera de permettre aux agents de collaborer efficacement avec les utilisateurs humains.
Elle a fait remarquer que les modèles actuels reflètent souvent des normes et des valeurs occidentales, ce qui s’explique probablement par la répartition de leurs données d’entraînement, et qu’ils ont tendance à rencontrer des difficultés lorsqu’il s’agit de s’aligner sur des contextes culturels en dehors de l’Amérique du Nord, de l’Europe, de l’Australie et de la Nouvelle-Zélande. Les LLM étant de plus en plus déployés à travers le monde, il sera essentiel d’améliorer l’alignement interculturel.
Pour remédier à cela, le laboratoire de Zhao s’appuie sur des théories des sciences sociales telles que la modélisation des intentions et la théorie de l’esprit afin de mieux comprendre et améliorer l’alignement entre les humains et les LLM. À l’aide de jeux multijoueurs, notamment des scénarios de négociation et de médiation, ils étudient la manière dont les modèles interagissent avec les humains dans des contextes dynamiques. Leurs conclusions révèlent un compromis important entre l’alignement à court terme et l’alignement à long terme : les stratégies qui optimisent l’accord ou la coopération immédiats ne conduisent pas nécessairement à un alignement durable dans le temps.
Najoung Kim (Boston University): Classical Computation in Connectionist Models
Najoung Kim, professeure de linguistique à l’université de Boston, a commencé par souligner que même les LLM modernes dotés de capacités de raisonnement continuent à rencontrer des difficultés en matière de généralisation robuste. Elle a fait valoir que la véritable généralisation requiert trois propriétés clés : la compositionnalité, la systématicité et la productivité, qui sont des principes fondamentaux étudiés depuis longtemps en sciences cognitives.
S’inspirant du calcul classique et du traitement symbolique, elle a suggéré que l’identification et l’intégration de ces signatures structurelles dans les modèles pourraient conduire à une généralisation plus fiable et plus systématique. Dans l’ensemble, son exposé vise à intégrer des principes structurels plus profonds afin de parvenir à un raisonnement plus flexible et plus proche de celui des humains.
Claire Stevenson (University of Amsterdam): Learning to Solve Analogies: The Paths Children and LLMs Take
Claire Stevenson, professeure adjointe de psychologie à l’université d’Amsterdam, a fait valoir qu’au lieu d’utiliser l’IA uniquement pour modéliser l’esprit d’un enfant, nous devrions nous concentrer sur la modélisation du processus de développement cognitif lui-même. Elle a souligné que l’apprentissage des enfants se déroule progressivement, façonné par des mécanismes tels que le raisonnement analogique, qui joue un rôle central dans la manière dont ils généralisent et acquièrent de nouveaux concepts.
S’appuyant sur des preuves scientifiques concernant les capacités analogiques des enfants, elle s’est demandé comment nous pourrions concevoir des systèmes d’IA dotés d’un raisonnement analogique plus robuste et fondé sur le développement. Il est intéressant de noter que ses recherches montrent que les enfants et les LLM ont tendance à s’appuyer fortement sur des stratégies de copie lorsqu’ils effectuent des tâches analogiques. Cela soulève des questions importantes quant à savoir si les modèles actuels abstraient véritablement la structure relationnelle ou s’ils se contentent d’imiter des modèles superficiels.
Ivan Titov (University of Edinburgh, University of Amsterdam): Post-Training for Reasoning in Large Language Models: Learning vs Reshaping, Generalization and Failure Mode
Ivan Titov, professeur à l’université d’Édimbourg, a abordé la question de l’interprétabilité des modèles linguistiques à grande échelle (LLM), en mettant particulièrement l’accent sur ce qui se passe après la formation. Il a structuré son analyse autour de trois perspectives complémentaires, à savoir les données, les paramètres et l’inférence. Il a présenté plusieurs études qui examinent comment des techniques telles que le réglage fin supervisé et le réglage fin basé sur le renforcement remodèlent les modèles après la préformation. Ces études montrent que différentes stratégies post-entraînement peuvent entraîner des différences substantielles et parfois inattendues dans le comportement du modèle.
Ivan a également mis en évidence des preuves suggérant que les traces de raisonnement de la chaîne de pensée (CoT) ne sont pas toujours des indicateurs fidèles de la manière dont un modèle parvient à une réponse correcte. Dans certains cas, le raisonnement généré peut ne pas refléter le véritable calcul sous-jacent. Comme stratégie d’atténuation potentielle, les solutions proposées consistent notamment à permettre aux modèles de récompense d’accéder aux traces de raisonnement du modèle pendant la formation, ce qui pourrait contribuer à mieux aligner les résultats sur le processus de raisonnement réel et à améliorer la transparence.
<
Andew Lampinen (Google DeepMind): How Do Language Models Reason About Information From Parameters and Context? Lessons for Complementary Learning Systems
Andrew Lampinen, chercheur chez Google DeepMind, a présenté les LLM à travers le prisme du cadre CLS (Complementary Learning Systems, ou systèmes d’apprentissage complémentaires). Dans cette optique, les LLM s’appuient sur deux systèmes de mémoire qui interagissent : une mémoire à court terme correspondant aux informations contextuelles fournies au moment de l’inférence, et une mémoire à long terme encodée dans les paramètres du modèle grâce à l’entraînement. Cette perspective offre un moyen utile d’analyser la manière dont les modèles apprennent et généralisent à travers différentes tâches.
Dans son exposé, Lampinen a souligné comment ces deux systèmes de mémoire contribuent différemment à la généralisation. Il a discuté des moyens de combler le fossé de généralisation qui en résulte grâce à des stratégies hors ligne, telles que l’augmentation ou la diversification des données d’entraînement, et à des stratégies en ligne, notamment la récupération d’expériences passées pertinentes au moment de l’inférence. Ensemble, ces approches suggèrent une voie plus consciente de la mémoire pour améliorer la robustesse et l’adaptabilité des LLM.
Table ronde avec Alison Gopnik, Andrew Granville, Taylor Webb, Laura Ruis, Andrew Lampinen et Guillaume Lajoie.
À la suite de l’intervention d’Andrew Lampinen, une table ronde animée par Guillaume Lajoie a réuni Alison Gopnik, Andrew Granville, Taylor Webb, Laura Ruis et Andrew Lampinen pour une discussion approfondie. La conversation a porté sur la relation entre le calcul symbolique et le calcul neuronal, débattant de leurs forces respectives et de la manière dont des approches hybrides pourraient combiner la structure des systèmes symboliques avec la flexibilité des réseaux neuronaux.