La compréhension des mécanismes neuronaux de la cognition du cerveau humain est un sujet de recherche de premier plan en neurosciences. En combinant des techniques d’imagerie cérébrale et des réseaux de neurones profonds, il est possible de construire un décodeur cérébral en temps réel qui peut analyser une courte série d’images du cerveau et prédire le processus cognitif sous-jacent. Ce type de recherche fournit des orientations fondamentales pour le développement de l’intelligence artificielle et pourrait contribuer à combler le fossé entre l’homme et la machine.
Avez-vous déjà souhaité pouvoir lire les pensées des autres ou même comprendre leurs intentions ou leurs sentiments les plus profonds? La science se penche aussi sur cette question. Le but principal de mon projet est de « lire » les pensées des gens en temps réel en utilisant des techniques d’imagerie cérébrale modernes et des techniques avancées d’intelligence artificielle.
L’intelligence artificielle vise à imiter l’intelligence humaine. Toutefois, notre compréhension de la cognition humaine est encore limitée. Les techniques d’imagerie modernes telles que l’imagerie par résonance magnétique fonctionnelle (IRMf) constituent un moyen puissant et non invasif de cartographier la fonction cognitive humaine. Par exemple, les chercheurs peuvent utiliser les images du cerveau obtenues par IRMf pour décoder l’esprit d’une personne ou prédire ses pensées et ses émotions. Des techniques avancées issues de l’apprentissage automatique ont été utilisées, par exemple, pour analyser ces schémas complexes d’activité cérébrale et prédire l’état cognitif correspondant. Cette technique est appelée décodage cérébral ou lecture des pensées. Au cours de la dernière décennie, de grandes avancées ont été réalisées dans le domaine du décodage cérébral, passant d’images statiques, par exemple pour reconnaître le visage ou la maison d’une personne, à des stimuli plus naturels, notamment la reconstruction d’images de films ou même la visualisation des rêves ou de l’imagination d’une personne.
Dans le cadre du projet sur la lecture des pensées, j’ai proposé une solution complète pour le décodage du cerveau en temps réel qui utilisait des réseaux de neurones artificiels profonds pour analyser une courte série d’imageries IRMf prises pendant qu’un participant effectuait des tâches cognitives précises. Le modèle de décodage cérébral a permis de détecter si le participant bougeait les mains, résolvait des problèmes scientifiques, écoutait une histoire, regardait une vidéo drôle, gérait ses relations sociales ou éprouvait des émotions particulières. Mon modèle de décodage a été testé en utilisant une grande base de données d’IRMf de tâches acquise du Human Connectome Project (HCP). La base de données comprenait l’imagerie cérébrale fonctionnelle de 1200 sujets sains prise pendant qu’ils effectuaient plus de 20 tâches cognitives différentes. En utilisant des imageries par résonance magnétique fonctionnelle de 10 secondes, le modèle a été en mesure de distinguer les 20 états cognitifs avec une précision de décodage de 90 %.
Toutefois, il existe encore de grands écarts entre la recherche en neurosciences et la création de produits de lecture des pensées pouvant être utilisés dans le monde réel. L’un des plus grands défis est de pouvoir généraliser la lecture des pensées à de vastes populations issues de sociétés, de cultures et de groupes ethniques différents, et ce, pour une grande variété de tâches cognitives. Jusqu’à présent, la majorité des recherches sur le décodage du cerveau sont encore menées sur un petit groupe de personnes effectuant quelques tâches expérimentales. En utilisant les images fonctionnelles du cerveau de 7 à 10 participants, les chercheurs ont pu, par exemple, déterminer si un participant regardait le visage d’un humain ou celui d’un animal. Pour surmonter ce défi, j’ai utilisé des outils d’apprentissage profond avancés, notamment des réseaux de neurones convolutifs profonds et des réseaux de neurones en graphiques, pour construire un algorithme de décodage du cerveau qui peut être généralisé ou adapté à la variabilité individuelle et collective de milliers de sujets et utilisé pour une variété de tâches cognitives. Le modèle fournit une solution complète en traitant toutes les conditions d’une tâche en même temps, les tâches variant de reconnaître une image, écouter une histoire, exécuter différents types de mouvements corporels ou ressentir différents états sociaux et émotionnels. Il ne nécessite aucune connaissance préalable du domaine, comme l’activation des cortex visuels primaire et secondaire lors d’une tâche visuelle. Cette caractéristique en fait un candidat prometteur pour l’apprentissage par transfert entre des ensembles de données de neuro-imagerie, d’autant plus qu’un problème courant pour l’apprentissage profond sur des images cérébrales fonctionnelles est le manque d’ensembles de données suffisamment importants pour entraîner des modèles complexes. Dans une autre étude de suivi, j’ai démontré une amélioration importante en ce qui a trait à la performance du décodage dans le cas d’un petit groupe (12 sujets) après avoir transféré les résultats d’apprentissage profond d’une grande population (1000 sujets), indépendamment du domaine utilisé pour entraîner le modèle de base.
La résolution temporelle du décodage cérébral est un autre obstacle important pour les produits de lecture des pensées qui nécessitent généralement le décodage de l’activité cérébrale en temps réel ou presque (millisecondes). L’interface cerveau-machine en temps réel en est un exemple, c’est-à-dire le contrôle de membres artificiels avec l’esprit après une paralysie due à une lésion cérébrale ou à un accident cérébral vasculaire. Pour résoudre ce problème, mon modèle de décodage a travaillé sur la série chronologique des signaux cérébraux au lieu d’analyser les schémas spatiaux des activations cérébrales. À l’aide de ce cadre, le modèle a été en mesure de classer cinq types de mouvements corporels avec une précision de 95 % en utilisant 720 millisecondes d’imagerie cérébrale. En plus d’améliorer la résolution temporelle du décodage du cerveau dans les IRMf, le modèle a aussi fourni un cadre qui peut être utilisé pour d’autres modalités d’imageries cérébrales, par exemple, l’électroencéphalogramme et la magnétoencéphalographie. Ce modèle est un candidat prometteur pour la conception d’interfaces cerveau-machine capables de traduire en temps réel la pensée en action, notamment pour contrôler des bras robotiques, générer de la parole et du texte, créer de l’art et de la musique et analyser les émotions.
Les principales caractéristiques de mon modèle de décodage, soit sa généralisabilité et sa résolution temporelle, le rendent utile pour la poursuite de recherches dans des domaines connexes et ouvrent la voie à une meilleure compréhension des fonctions cognitives complexes et séquentielles. D’autres projets passionnants peuvent être proposés en utilisant cette architecture pour améliorer notre vie quotidienne en aidant, par exemple, au diagnostic et aux prévisions postopératoires de patients souffrant de troubles neurologiques et psychiatriques.
Cet article a été réalisé par Yu Zhang, PhD, Département de Psychologie (Université de Montréal), avec l’accompagnement de Marie-Paule Primeau, conseillère en vulgarisation scientifique, dans le cadre de notre initiative « Mon projet de recherche en 800 mots ».