Des modèles fondationnels pour les neurosciences.

Vision

Dans le domaine des neurosciences, la nécessité de développer des modèles fondationnels spécifiques à l’analyse de données neurales et comportementales est reconnue. En fait, les données des neurosciences constituent un cas d’usage idéal pour les modèles fondationnels. Tout d’abord, l’activité neuronale et le comportement sont très complexes. Deuxièmement, les données neurales et comportementales sont variées et elles se présentent dans une grande variété de modalités. En entraînant un modèle fondationnel de manière autosupervisée sur de grands ensembles de données multimodales et diversifiées de nature neurale et comportementale, le modèle pourrait être peaufiné pour des applications spécifiques, telles que la détection des troubles du sommeil, la prédiction de réponse à un traitement pour l’épilepsie, le diagnostic de troubles de la santé mentale, etc.

Objectifs

  • Construire le premier modèle fondationnel multimodal dédié aux neurosciences au monde.
  • Exploiter le potentiel des approches de type « données massives » pour transformer les neurosciences.
  • Mettre en place les bases nécessaires à l’élaboration de ces modèles fondationnels.

Axes de recherche

Axe 1 : Créer les outils servant à construire un modèle fondationnel multimodal dédié aux neurosciences

Le premier axe vise à fournir à la communauté des neurosciences un code base et des ensembles d’outils essentiels dans la construction et l’évaluation de modèles fondationnels multimodaux basés sur des données de neurosciences, conformément aux meilleures pratiques. Les outils seront diffusés en libre accès et accompagnés d’une documentation bien établie afin de garantir leur adoption. R1 souhaite créer une bibliothèque d’outils qui deviendra le standard international pour la création de modèles fondationnels basés sur les neurosciences.

Objectif 1. Construire des modules de tokenisation pour traiter des données neuroscientifiques variées
Objectif 2. Créer des modules pour le conditionnement sur les stimuli et les comportements
Objectif 3. Développer des données synthétiques servant à valider les modèles pré-entraînés
Objectif 4. Déterminer une loi d’échelle pour les données de neurosciences

Axe 2 : Identifier les partis pris inductifs qui améliorent l’apprentissage sur des données de nature variée

Le deuxième axe a pour but d’identifier les partis pris inductifs (inductive biases), c’est-à-dire les modèles qui intègrent une connaissance appropriée du domaine, afin de réduire la quantité de données nécessaires à une inférence efficace. Ces partis pris inductifs peuvent et doivent être guidés par nos connaissances actuelles du cerveau. L’identification de partis pris inductifs pertinents pourrait non seulement réduire la quantité de données nécessaires pour entraîner les modèles, mais aussi signaler lorsqu’un élément clé du cerveau a été capté, ce qui faciliterait la création de modèles plus perfectionnés et plus semblables au cerveau.

Objectif 1. Architectures et fonctions de perte les mieux adaptées aux données de neurosciences
Objectif 2. Augmentation des données pour améliorer leur efficacité
Objectif 3. Déterminer si la connaissance du domaine peut modifier les lois de mise à l’échelle des données neurales

Axe 3 : Concevoir et diffuser un modèle fondationnel multimodal basé sur des données neurales et comportementales 

L’axe 3 a pour objectif de créer le premier modèle de fondation multimodal entièrement libre dédié à la recherche en neurosciences. À des fins de transparence, les données intégrées dans le modèle et le processus de construction du modèle seront clairement documentés. Les paramètres et le code du modèle seront publiés afin que l’ensemble de la communauté puisse y accéder.

Objectif 1. Organiser les données et déterminer la taille adéquate du modèle
Objectif 2. Obtenir les ressources de calcul nécessaires pour développer le modèle
Objectif 3. Construire et déployer un modèle fondationnel multimodal pour les neurosciences

Défis

L’un des défis rencontrés par la communauté des neurosciences dans l’élaboration de modèles fondationnels est qu’une grande partie du travail technique ne relève pas de l’expertise des laboratoires de neurosciences. Bien que les neuroscientifiques maîtrisent bien l’analyse de leurs données, ils sont limités dans leur compréhension de la manière dont les grands modèles de réseaux neuronaux pré-entraînés de façon auto-supervisée doivent être construits. De nombreuses considérations et « astuces » pour l’apprentissage auto-supervisé sont inconnues des laboratoires de neurosciences. De plus, la construction et la maintenance de bases de code exhaustives et bien testées servant à supporter de tels modèles n’est pas une tâche que les laboratoires de neurosciences individuels sont incités à poursuivre.

Bien qu’il y ait de plus en plus de données disponibles pour l’entraînement des modèles, chaque ensemble de données est petit et contient des modalités et des étiquettes de données uniques. L’accès à des ensembles de données variés de grande qualité peut prendre un temps considérable. En entraînant un modèle fondationnel de manière auto-supervisée sur de vastes collections d’ensembles de données multimodales diversifiées d’origine neurale et comportementale, indépendamment de l’objectif principal pour lequel ces données ont été acquises, nous pourrions ensuite procéder à un réglage fin pour des applications spécifiques.

Impact anticipé

  • La base de code et les outils auront un impact considérable dans le domaine des neurosciences.
  • Le modèle fondationnel aura un impact potentiellement énorme sur la recherche en neurosciences.
  • Quatre outils spécifiques, un ensemble de données multimodales et un modèle fondationnel multimodal seront mis à la disposition de la communauté des neurosciences.
  • Les travaux du R3 contribueront à la reconnaissance et au renforcement de la position du Québec en tant que leader mondial dans le domaine des neurosciences de pointe.

Équipe de recherche

Coresponsables

Sylvana Côté
Université de Montréal
CHU Sainte-Justine
Karim Jerbi
Université de Montréal
Flavie Lavoie-Cardinal
Université Laval
Blake Richards
Université McGill

Chercheuses et chercheurs

Conseillère de recherche

Audrée Janelle-Montcalm : audree.janelle-montcalm@ivado.ca