24 mai 2024
Entrevue avec Danilo Bzdok, codirecteur scientifique aux Programmes de recherche et relations avec les membres académiques
Professeur à l’Université McGill, Danilo Bzdok, neuroscientifique renommé et spécialiste en apprentissage de modèles prédictifs, occupe le poste de codirecteur scientifique en charge des Programmes de recherche et des relations avec les membres académiques chez IVADO. Il nous dévoile dans cet entretien, les défis et les opportunités qui jalonnent son parcours et partage sa vision pour l’avenir de la recherche interdisciplinaire.
1- Vous êtes chercheur spécialiste en neurosciences et neurobiologie de l’intelligence humaine. Comment envisagez-vous le rôle de l’IA dans le champ des sciences biomédicales et les neurosciences?
Les neurosciences et la médecine évoluent actuellement à un rythme plus rapide que probablement jamais auparavant. Depuis une dizaine d’années, les neurosciences et la biomédecine sont entrées dans l’ère des « big data ». Le partage des données, le libre accès et la création de référentiels de « big data » sont de plus en plus fréquents. Par exemple, l’un des ensembles de données préférés de mon équipe est la UK Biobank – une étude longitudinale de la population consacrée à l’influence génétique et environnementale sur les troubles mentaux et d’autres conditions médicales. 500 000 volontaires ont été soumis à une batterie complète de diagnostics cliniques, allant des scanners cérébraux à la densité osseuse, avec un suivi de plus de 25 ans.
D’autre part, l’invention et l’application d’outils statistiques ont toujours été dictées par l’évolution des contextes et des questions de domaine. Les pratiques et les choix en matière d’analyse des données peuvent et doivent changer en raison de l’augmentation progressive de la granularité des données numérisées sur le cerveau et le corps. L’analyse et la réanalyse ciblées de ces collections de données nationales et internationales pourraient bientôt devenir la nouvelle norme dans les neurosciences fondamentales et cliniques. Je pense donc que les chercheurs et chercheuses doivent étendre leurs instincts de modélisation à de nouvelles formes d’outils de science des données – c’est là que l’IA entre en jeu.
2- Comment les avancées récentes dans le domaine de l’intelligence artificielle contribuent-elles à notre compréhension du cerveau et des processus cognitifs?
Les grands modèles de langage (LLM) constituent une nouvelle classe d’actifs dans le paysage de l’apprentissage profond, ils alimentent actuellement une nouvelle vague de dynamisme dans les écosystèmes de l’IA. L’expansion et l’explosion des architectures LLM ont été alimentées par (1) l’invention des transformateurs, qui tendent à ne varier que légèrement entre les LLM récents, (2) la disponibilité de sources de données abondantes à l’échelle de l’Internet, et (3) la disponibilité de la puissance de calcul à l’échelle.
De mon point de vue, les chercheurs et chercheuses en neurosciences peuvent tirer parti de cette boîte à outils émergente de plusieurs façons :
- Les moteurs d’apprentissage LLM semblent immédiatement appropriés non seulement pour les séquences de mots, mais aussi pour différents types de séquences biologiques : le flux unidirectionnel d’informations génétiques depuis (1) les séquences de nucléotides dans l’ADN jusqu’à (2) les séquences de bases dans l’ARN messager et (3) les séquences d’acides aminés dans les produits protéiques. Les LLM constituent un levier qui permet aujourd’hui d’élaborer des modèles in-silico avancés du dogme central de la biologie (de la double hélice de l’ADN à l’expression de la transcription des gènes jusqu’aux protéines entièrement formées), avec un potentiel particulier pour la découverte de médicaments basée sur l’IA.
- La recherche en neurosciences dépend essentiellement de l’exactitude des annotations pour l’élaboration des données, la conception des expériences ou l’interprétation des résultats. Par conséquent, les facettes sémantiques dérivées automatiquement peuvent être plus efficaces dans une variété d’études que les approches traditionnelles qui s’appuient sur l’intuition humaine a priori. La génération d’annotations en pipeline pourrait considérablement améliorer nos capacités à mettre à l’échelle des protocoles manuels complexes dans différentes formes de « données immobilières », telles que les dossiers médicaux électroniques (eHR), les enregistrements vocaux, les scènes de films ou les résultats biométriques capturés par des dispositifs portables.
- Nous pouvons identifier de nouveaux systèmes de classification et de description de la cognition et des entités neurobiologiques dans la santé et la maladie en utilisant les annotations assistées par LLM comme une approche complémentaire pour compléter les solutions descendantes et standard, basées sur des règles en laissant vraiment les données « parler d’elles-mêmes ».
- Ainsi, dans le cadre d’un scénario futur possible, les technologies LLM émergentes peuvent susciter des avancées vers une redéfinition biologiquement fondée de la nosologie des principales maladies du cerveau, dépassant les frontières diagnostiques dans une nouvelle ère de médecine fondée sur des preuves, plutôt que de s’appuyer uniquement sur le jugement de quelques expert(e)s sélectionnés.
- En outre, les LLM peuvent fournir une boîte à outils alternative qui s’avère précieuse pour vérifier et modifier les notions conçues par l’homme sur lesquelles les chercheurs et chercheuses en neurosciences s’appuient pour comprendre le cerveau. Il est important de comprendre que, en particulier dans la recherche classiquement étroite axée sur les hypothèses, l’ensemble de l’effort de recherche dépend de la validité présumée des termes cognitifs et neuronaux qui ont été utilisés pour articuler les conditions de la recherche expérimentale.
En bref, je suis convaincu que les neuroscientifiques doivent être à la fois plus humbles et plus audacieux. Plus humbles en étant ouvert(es) à la possibilité de trouver de meilleures théories explicatives concernant les circuits neuronaux du cerveau. Plus audacieux, en adoptant des paradigmes d’analyse radicalement axés sur les données afin d’exploiter, de combiner et de donner un sens à ces données massives.
3- Selon vous, quel rôle IVADO peut-il jouer dans l’écosystème de recherche en IA, notamment en neurosciences?
IVADO est le plus grand projet d’IA financé par des fonds publics au Canada. Ce consortium vise à promouvoir à la fois l’IA fondamentale et les applications de l’IA en consolidant les efforts des parties prenantes à plusieurs niveaux à l’Université de Montréal, à l’Université McGill, à HEC Montréal, à Polytechnique Montréal et à l’Université Laval, avec des partenariats s’étendant bien au-delà de ces institutions.
Nous menons des activités de recherche scientifique avec plus de 300 professeur(e)s d’université et assurons la liaison entre les programmes intersectoriels de 16 instituts et centres (membres académiques). Le projet vise à garantir que le développement et le déploiement de l’IA soient responsables et inclusifs. Sa mission principale est de transformer les découvertes scientifiques en applications pratiques, générant une valeur économique et sociale ; et également de développer et de promouvoir l’utilisation de l’intelligence artificielle (IA) et de la science des données dans divers secteurs en mettant l’accent sur la traduction des connaissances fondamentales de la recherche en un impact réel qui est bénéfique pour la société dans son ensemble. Nous visons à favoriser la collaboration entre les chercheurs et chercheuses, les industriels et les organismes gouvernementaux pour stimuler l’innovation et la transformation numérique. L’ADN d’IVADO s’aligne directement sur les objectifs stratégiques de Québec et du Canada pour devenir des leaders mondiaux de l’IA éthique.
En ce qui concerne son impact possible sur les neurosciences, je pense que l’IA de pointe peut avoir un effet réconciliateur sur ce qui est actuellement une mosaïque très fragmentée d’activités de recherche. Le vaste domaine des neurosciences touche diverses disciplines, de la physique à la psychologie. Ce domaine extrêmement interdisciplinaire produit une myriade de résultats expérimentaux plutôt distincts qu’il peut être difficile d’intégrer par le seul effort humain.
En outre, l’étendue du domaine amène souvent les chercheurs et chercheuses à travailler au sein d’une sous-communauté particulière, en se concentrant sur des domaines de recherche étroitement spécialisés, et en risquant de passer à côté d’opportunités par le biais d’une fertilisation croisée potentielle avec d’autres sous-disciplines. Alors que les disciplines de neurosciences sont devenues de plus en plus idiosyncrasiques au cours des dernières années et décennies, avec leurs propres programmes, croyances et paradigmes expérimentaux, la convergence sur les solutions émergentes de l’IA peut aider à réunir les activités de recherche disparates en neurosciences.
En tant que quelqu’un qui aime être contre-courrant, je dirai que de nombreux domaines des neurosciences ne disposent pas encore aujourd’hui des données nécessaires pour répondre de manière satisfaisante aux questions de recherche qu’ils se posent. Malgré le mouvement des « big data », de nombreux domaines des neurosciences ne disposent pas des ensembles de données à l’échelle de l’internet qui alimentent l’analyse de textes et d’images dans la communauté de l’IA. Les neuroscientifiques devraient donc s’unir pour se demander quels types d’informations non neuroscientifiques peuvent être exploités pour les rendre exploitables par l’IA. Cet objectif d’”apprentissage par transfert” fait référence à un mode d’analyse des données qui consiste à stocker les connaissances structurées acquises lors de la résolution d’un problème, afin de les appliquer à un problème différent mais connexe. Ceci peut nécessiter des efforts et un partage des données à l’échelle de la communauté.
Les LLM, et d’autres architectures porteuses de transformateurs, ont montré une capacité d’apprentissage par transfert dépassant les attentes. Les modèles d’IA émergents, plus puissants, peuvent alors servir de plateforme pour revisiter et attaquer les problèmes classiques des neurosciences sous un angle nouveau. Dans une prochaine étape, ces modèles d’IA spécifiques à la communauté (modèles de base) peuvent alors être utilisés conjointement pour construire des ponts d’investigation à différents niveaux de la biologie (cellules, réseaux neuronaux, méso-échelle, macro-échelle, environnement, société, …), ce qui était impensable jusqu’à présent.
Un tel programme de recherche pourrait aider à surmonter ce qui me semble être un cloisonnement des communautés neuroscientifiques opérant dans leur propre “bulle ».
Permettre aux chercheurs et chercheuses de divers domaines neuroscientifiques de mettre en place des éléments de base communs pourrait également contribuer à améliorer la comparabilité des études, et à favoriser la collaboration entre les équipes, les institutions et les zones géographiques. Il se peut que l’effort humain ne suffise pas à rassembler formellement les produits de la recherche de plus de 100 000 neuroscientifiques sur la planète… Cette fragmentation des connaissances est, selon ma perception subjective, sans doute l’un des plus grands défis de l’entreprise scientifique au 21e siècle.
En tant qu’aspiration fondamentale pour l’entreprise neuroscientifique intensément interdisciplinaire, les technologies récentes de l’IA peuvent nous aider à surmonter le fossé entre les communautés neuroscientifiques disparates, et peuvent nous permettre de former des solutions de fusion de modèles intégratives entre les communautés qui peuvent amalgamer les mosaïques de connaissances. Peut-être que les scientifiques doivent s’associer à l’IA pour avoir une chance de comprendre comment fonctionnent les réseaux neuronaux dans leur propre tête.
Quelles sont vos priorités en tant que codirecteur scientifique pour stimuler l’innovation dans les domaines prioritaires établis dans le projet IAR3?
En tant que membre de la direction de l’IVADO, ma principale priorité est de contribuer à la création d’un environnement de recherche unique au Québec, qui permette aux chercheurs et chercheuses de mener à des projets d’IA exceptionnellement ambitieux et disruptifs, avec une empreinte internationale reconnue.