Actualités
4 mai 2026
Faire exister les langues invisibles
Quand l’intelligence artificielle ignore une langue, elle accélère sa disparition. Des chercheurs montréalais s’attaquent à ce problème et leurs travaux pourraient changer concrètement la vie de millions de personnes.
Imaginez ne pas pouvoir expliquer vos symptômes à un médecin. Non pas parce que vous ne savez pas ce que vous ressentez, mais parce que votre langue n’existe tout simplement pas dans les outils numériques disponibles. Pas de traducteur automatique fiable, as d’assistant vocal qui vous comprend. À chaque rendez-vous, vous devez être accompagné d’une personne qui parle votre langue pour pouvoir simplement vous faire soigner.
C’est la réalité quotidienne de millions de personnes dont la langue est absente du monde numérique. Et cette absence ne se résorbera pas d’elle-même. Elle s’aggrave, à mesure que l’intelligence artificielle s’impose comme une infrastructure invisible de nos sociétés, reproduisant et amplifiant les inégalités linguistiques existantes.
Selon les Nations unies, deux langues autochtones disparaissent en moyenne chaque mois dans le monde. Au Canada, la moitié des cinquante à quatre-vingt-dix langues des Premières Nations pourraient s’éteindre d’ici dix à quinze ans. Pendant ce temps, les grands modèles de langage, ces systèmes qui alimentent les assistants vocaux, les outils de traduction, les interfaces médicales et éducatives, sont entraînés presque exclusivement sur des langues européennes à fort volume de données.
Ce n’est pas une fatalité technique, mais plutôt le résultat de choix, selon David Adelani, chercheur et professeur à l’Université McGill. « Quelqu’un à San Francisco décide quelles langues comptent. Est-ce que ce quelqu’un conçoit que cinquante millions de personnes en Afrique parlent une langue complètement invisible pour la technologie ? »

Un problème de données, un problème de pouvoir
L’IA est alimentée par des données, et les langues peu représentées sur internet sont tout simplement ignorées des modèles. Le résultat est un paradoxe que peu de gens voient : l’estonien, parlé par un million de personnes, bénéficie d’un meilleur soutien technologique que l’haoussa, parlé par plusieurs dizaines de millions, parce que l’Estonie produit des données numériques abondantes. La taille d’une communauté linguistique ne détermine pas sa place dans l’IA. Sa présence sur le web, oui.

Pour les langues autochtones canadiennes, le défi est encore plus profond. Beaucoup sont traditionnellement orales, et c’est souvent l’histoire qui leur a imposé une forme écrite. Développer des outils numériques pour ces langues ne peut donc pas simplement reproduire les modèles existants : cela demande une approche entièrement différente.
C’est précisément cette approche que développent le professeur Adelani et son étudiante au doctorat Marie Maltais, dans le cadre d’un projet financé par le programme IAR3 d’IVADO.
Construire ensemble
Marie Maltais a grandi à Montréal sans jamais vraiment entendre parler des langues autochtones présentes dans sa propre ville. C’est en sociolinguistique, à l’Université de Montréal, que la réalité l’a rattrapée.

« On réalise que pour plein d’autres communautés, leur langue n’est pas du tout reconnue, dit-elle. Et elle est très importante pour eux, pour leur éducation, pour leur gouvernement, pour la vitalité de leur culture. »
Cette prise de conscience a orienté tout son parcours, de l’Université d’Édimbourg où les langues celtiques minoritaires occupent une place centrale, jusqu’au laboratoire du professeur Adelani à l’Université McGill. Ce qui l’a attirée là, c’est une philosophie de recherche rare dans le domaine : les communautés ne sont pas des fournisseurs de données. Elles coconstruisent les outils, orientent les choix technologiques, décident de la gouvernance de ce qu’elles produisent.
David Adelani applique cette méthode depuis plusieurs années en Afrique. Ses jeux de données ont été utilisés par des startups africaines pour développer leurs propres modèles. Son dernier projet, AfriqueLLM, couvre vingt langues africaines et représente l’une des tentatives les plus abouties à ce jour pour créer un grand modèle de langage ouvert dédié aux langues africaines.
En parallèle, ses travaux d’évaluation couvrent aujourd’hui plus de 200 langues sur plusieurs continents, notamment en Afrique, en Asie et dans les Amériques. À chaque fois, le même constat : les grands modèles existants performent nettement moins bien dans ces langues que dans les langues dominantes.

Mais il insiste sur un point que les grandes initiatives technologiques négligent systématiquement : collecter des données ne suffit pas. « Si la communauté n’a pas le savoir-faire technique pour utiliser ses propres données, la technologie lui sera revendue », dit-il. Ce qu’il veut construire, c’est l’inverse : des communautés capables de façonner leurs propres outils.
Marie Maltais vit cette réalité dans ses recherches actuelles avec une université irlandaise. Ce qui compte, dit-elle, ce n’est pas seulement de collecter des données, mais de maintenir un contact humain régulier avec les communautés qui les produisent. « Ce n’est pas la même chose qu’être capable de poser mes questions dans la vraie vie », dit-elle. Pour des communautés dont la tradition orale est au cœur de l’identité, ce contact direct n’est pas une formalité : c’est la condition de la confiance.
Ce que ça pourrait changer
Le financement d’IVADO a permis à David Adelani d’explorer une question qu’il n’aurait pas pu aborder autrement : peut-on créer des outils pour des langues en danger à partir de ce qui existe déjà (dictionnaires, grammaires, lexiques) sans attendre des corpus massifs qui n’existeront peut-être jamais ? Une approche directement applicable aux langues autochtones du Canada.
Les applications possibles sont concrètes. Un outil de synthèse et de simplification de texte, utilisable sur un téléphone, pour qu’un enfant puisse apprendre dans sa langue maternelle. Un système entièrement vocal, sans transcription textuelle, pour les communautés dont la tradition orale est au cœur de l’identité. Et cette mère qui ne peut pas aller seule chez le médecin : un outil qui lui permettrait de communiquer avec un professionnel de santé dans sa langue, sans intermédiaire, sans point de friction superflu dans un moment déjà difficile.
« L’idée, c’est que les outils créés soient utiles aux communautés elles-mêmes et répondent à un besoin existant. Un exemple : aller voir un médecin, c’est déjà angoissant, dit Marie Maltais. Si on est capable d’enlever ce point de friction là, c’est vraiment ce vers quoi je veux tendre. »
Car toutes ces langues ne sont pas condamnées. Certaines sont en danger critique, d’autres entament un mouvement de réappropriation. Au Canada, plus du quart des locuteurs de langues autochtones ont appris leur langue comme langue seconde, preuve que la transmission peut reprendre même après une rupture.
De jeunes Autochtones de partout au pays répondent aussi à l’appel pour revitaliser les langues de leurs ancêtres. Dans certains cas, des communautés s’efforcent de faire revivre des langues qui ne comptent plus que quelques locuteurs courants, voire aucun. Dans ce contexte, des outils numériques accessibles et conçus avec les communautés ne serviraient pas uniquement à ralentir une disparition : ils pourraient contribuer au réveil de langues endormies.

Des collaborations à construire
Les partenariats directs avec les communautés autochtones canadiennes sont encore en train de se tisser. Mais la méthode déployée par David Adelani et Marie Maltais ailleurs, en Afrique comme en Irlande, est précisément adaptée à ce contexte. C’est ce travail préparatoire — technique, relationnel, ancré dans les réalités locales — qui rend les collaborations futures possibles.
La technologie n’est pas l’unique réponse pour protéger les langues en péril. Mais les outils développés par les chercheurs, s’ils sont adaptés aux communautés, mis entre leurs mains et maîtrisés par elles, peuvent en sauver certaines. Pas seulement comme patrimoine à conserver, mais comme langues vivantes que des parents transmettent à leurs enfants, que des élèves utilisent pour apprendre, que des patients utilisent pour communiquer avec le corps médical sans intermédiaire.
C’est là que réside le vrai renversement : non pas déposer la technologie entre les mains des communautés, mais les mettre en position de la concevoir selon leurs besoins, et de choisir ce qu’elles en font.
David Ifeoluwa Adelani est professeur IVADO et professeur adjoint à l’École d’informatique de l’Université McGill, membre de Mila et titulaire d’une chaire CIFAR en intelligence artificielle. Marie Maltais est doctorante en linguistique computationnelle à l’Université McGill et membre de Mila. Tous deux collaborent avec IVADO dans le cadre du programme IAR³, regroupement NLP, volet langues à faibles ressources et langues en danger.