L’intelligence artificielle est souvent utilisée par les compagnies d’assurance automobile afin de prédire le profil et le niveau de risque de leur clientèle. Les données personnelles utilisées peuvent toutefois être jugées sensibles et l’utilisation de l’intelligence artificielle peut mener à des discriminations injustifiées. Des techniques pour corriger les biais discriminatoires dans les données d’assurance sont présentement à l’étude, aspirant à rendre les services financiers plus transparents en se basant sur une intelligence artificielle plus éthique et responsable.
Plus de 5 millions de Québécois et de Québécoises possèdent un permis de conduire leur permettant de circuler sur le réseau routier de la province, lequel s’étend sur plus de 325 000 kilomètres. En 2021, 27 888 blessures causées par des accidents de la route ont été recensées par la Société de l’assurance automobile du Québec. Chaque personne au volant d’un véhicule représente un risque différent pour les assureurs. Les compagnies d’assurance utilisent d’ailleurs des algorithmes de plus en plus sophistiqués pour estimer ce risque. Ces estimations se basent sur une masse croissante d’informations, parfois sujettes à controverses, sur les personnes assurées. Tout comme pour l’intelligence humaine, l’intelligence artificielle peut comporter des biais qui teintent ses calculs de manière à les rendre discriminatoires pour une partie de la population. Mon projet de recherche vise à réduire ces biais discriminatoires en corrigeant les algorithmes utilisés par les assureurs automobiles afin qu’ils puissent faire des prédictions qui soient davantage alignées avec les valeurs de la société.
Plusieurs pays et territoires à travers le monde interdisent la discrimination basée sur certaines caractéristiques dans le domaine de l’assurance automobile, comme la discrimination basée sur le genre en Europe, la discrimination basée sur l’origine ethnique au Texas, la discrimination basée sur la religion en Californie ou la discrimination basée sur la cote de crédit en Ontario. Par contre, le fait d’éviter l’utilisation d’une caractéristique controversée dans l’estimation des risques élimine seulement la discrimination dite « directe » sur cette caractéristique. L’intelligence artificielle peut tout de même deviner indirectement la caractéristique jugée délicate pour poursuivre sa discrimination, et ce, sans que l’analyste qui a créé l’algorithme en ait conscience. Ce phénomène sournois est appelé « discrimination indirecte ».
Par exemple, même si l’intelligence artificielle n’avait pas accès au genre des individus pour établir des primes d’assurance, elle pourrait tout de même imposer des tarifs différents aux gens qui travaillent en soins infirmiers, un métier majoritairement exercé par des femmes, par rapport aux gens qui travaillent en mécanique automobile, un métier majoritairement exercé par des hommes. Une forte corrélation existe également entre l’origine ethnique et le lieu de résidence des personnes assurées aux États-Unis, permettant ainsi à l’intelligence artificielle de discriminer indirectement la clientèle sur la base de son origine ethnique en se servant de son adresse. De manière similaire, même lorsque l’utilisation de la cote de crédit est interdite en assurance, l’intelligence artificielle pourrait l’estimer en utilisant l’âge ou le statut matrimonial des personnes assurées. Ces corrélations dans les données sont nombreuses et permettent à l’intelligence artificielle d’accéder indirectement à des données potentiellement sensibles. Cette situation devient encore plus préoccupante lorsque les données disponibles pour chaque individu sont abondantes. Il devient alors plus difficile pour les analystes qui évaluent le caractère éthique de l’intelligence artificielle de détecter la présence de discriminations indirectes et, surtout, de trouver des solutions pour y remédier.
L’objectif de mon projet est de développer des stratégies statistiques qui permettent de détecter et de limiter la discrimination indirecte faite par ces algorithmes. Trois types de stratégies ont été proposées à cette fin. D’abord, les données peuvent être modifiées afin d’y éliminer tout indice associé aux caractéristiques jugées délicates, de sorte à rendre l’intelligence artificielle aveugle à ces caractéristiques. Ensuite, des contraintes humaines peuvent être ajoutées à l’intelligence artificielle afin qu’elle soit « pénalisée » pour toute décision jugée injuste selon cette contrainte. Finalement, les prédictions de l’intelligence artificielle peuvent être adaptées dans le but d’augmenter leur degré d’équité et d’éviter qu’elles mettent un fardeau injustifié sur une partie de la population.
Mon projet de recherche misera sur cette dernière stratégie et proposera de nouvelles méthodes statistiques pour adapter les prédictions de l’intelligence artificielle. Ces outils supplémentaires seront inspirés de l’inférence causale, une branche des statistiques qui va au-delà des simples corrélations en s’intéressant aux relations de cause à effet. L’intelligence artificielle est le détecteur de corrélation par excellence. Par contre, une corrélation n’implique pas nécessairement un lien de causalité direct. Par exemple, les ventes de crème glacée sur une plage et les attaques de requins sont corrélées, mais cela ne signifie pas que les ventes de crème glacée causent les attaques de requins. La corrélation observée est trompeuse, car ces phénomènes sont simplement liés à la saison estivale et à la fréquentation accrue des plages durant cette période. L’inférence causale offre ainsi une approche essentielle pour identifier les caractéristiques des individus qui sont réellement responsables d’un risque accru d’accident automobile, évitant ainsi les corrélations trompeuses dans notre estimation des risques. Par exemple, une analyse de la causalité pourrait démontrer que l’âge est un facteur déterminant dans le risque d’accident automobile, tandis qu’une potentielle corrélation entre l’origine ethnique et les accidents automobiles serait écartée en raison de l’absence de causalité.
Pour assurer que nos nouvelles méthodes statistiques soient utilisables dans un cadre d’assurance automobile, elles seront mises à l’épreuve sur des données réelles obtenues grâce à une collaboration de recherche avec l’un des plus importants assureurs automobiles du Canada. Le résultat espéré est une méthodologie accessible, efficace et clés en main pour les juristes et spécialistes du domaine de l’assurance automobile qui aimeraient critiquer ou adapter des algorithmes susceptibles d’être injustement discriminatoires. Le domaine de l’assurance automobile n’est qu’une étude de cas; les avancées découlant du projet pourraient aider à augmenter le caractère éthique de n’importe quel système d’intelligence artificielle qui influence, de près ou de loin, les membres de la société.
Cet article a été réalisé par Olivier Côté, Doctorat en actuariat (Université Laval), avec l’accompagnement de Claudia Picard-Deland, conseillère en vulgarisation scientifique, dans le cadre de notre initiative « Mon projet de recherche en 800 mots ».