Étude des modèles génératifs et données synthétiques

Cette page dédiée présente l’un des thème / domaine stratégique actuellement en discussion dans le cadre de notre Programme de financement de recherche stratégique. L’ensemble des thèmes / domaines en discussion est indiqué sur la page du programme. Chaque page dédiée (y compris celle-ci) peut être à un niveau de détail et de maturité variable. Pour participer à la discussion sur ce thème ou en proposer de nouveaux, veuillez utiliser ce formulaire. Si vous souhaitez être tenu.e au courant des développements autour de ce thème / domaine, inscrivez-vous ci-dessous.

Étude des modèles génératifs et données synthétiques. Applications dans le secteur des finances, de la santé et du transport

Description et justification du domaine

Les développements récents que nous avons pu observer en apprentissage automatique et en apprentissage profond se sont produits en grande partie grâce à l’immense quantité de données générées ces dernières années ainsi qu’à l’accès à de plus grandes puissances de calcul auxquelles chercheur.euse.s et géants du numérique ont pu accéder. Ces ressources leur ont permis d’entraîner leurs modèles et de démontrer leur valeur lorsque ces derniers sont suffisamment précis et robustes.

Certains secteurs n’ont cependant pas développé la même maturité numérique. La faible quantité de données exploitables et disponibles est responsable, en partie au moins, de ce développement plus lent ainsi que d’une plus faible pénétration des innovations et technologies du numérique pour certains d’entre eux.

En santé, par exemple, des enjeux de confidentialité, d’acceptabilité sociale et d’éthique restreignent considérablement l’accès et le partage des données et limitent donc la recherche en intelligence numérique ainsi que l’innovation technologique dans ces secteurs.

De même, dans le secteur financier, la protection des données sensibles et des renseignements personnels des clients rend les données difficiles à partager, même à l’interne d’une même entreprise. L’adoption par le gouvernement du Québec du projet de loi n°64 remet cette question en priorité, notamment dans le secteur privé. Ce projet de loi vient moderniser des dispositions législatives en matière de protection des renseignements personnels.

Voici quelques exemples d’opportunités dont pourrait bénéficier ces secteurs:

Minimiser le risque de ré-identification et préserver l’utilité des données pour permettre leur utilisation
Travailler et entraîner des algorithmes avec des jeux de données dans lesquels les spécificités des populations Québécoises et Canadiennes sont représentées
Reproductibilité des résultats en apprentissage profonds et apprentissage automatique.
- Certains articles ne peuvent pas donner accès à leur jeux de données. Il n’est donc pas possible de s’assurer que les résultats sont reproductibles
Comprendre les biais et la robustesse des modèles (1)
Partager les données
Balancer les données

Dans le but d’adresser ce problème, des méthodes d’anonymisation de données deviennent de plus en plus d’intérêt. Les cas d’utilisation sont variés: stockage de la donnée sensible, échanges ou utilisation des données (analyse et entraînement de modèles d’apprentissage automatique). Il est donc important de bien évaluer les risques de violation de la confidentialité, ainsi que les coûts associés dans chaque contexte, et de déterminer l’approche la plus appropriée pour trouver un équilibre satisfaisant avec le degré de valorisation de ces données.

Les méthodes d’anonymisation qui offrent un niveau de sécurité suffisant sont par contre très limitées. Elles peuvent supprimer ou masquer la donnée sensible personnelle, mais ne permettent pas d’éliminer complètement le risque de ré-identification (Dwork, C., Smith, A., Steinke, T., & Ullman, J. 2017). Plusieurs études ont démontré la difficulté de créer un ensemble de données véritablement anonymes tout en conservant les informations importantes (Cohen, A., & Nissim, K. 2020).

Une solution envisageable consiste à partager des données synthétiques plutôt que les données sensibles originales anonymisées. L’idée serait d’échantillonner une population synthétique qui respecte les propriétés statistiques de la population véritable. Les analyses seraient donc basées sur cette population synthétique de substitution qui présente les informations utiles sur la population originale sans rien apprendre sur les individus en isolation. En combinant des réseaux de neurones profonds et la théorie des jeux, les réseaux antagonistes génératifs (GANs) et ses dérivés ont démontré des performances impressionnantes dans la modélisation de telles distributions, difficilement différentiables des échantillons réels. Ces méthodes couplées à d’autres techniques telles que la confidentialité différentielle ont donné des résultats prometteurs (Torfi et al. 2021)

En dépit de l’intérêt suscité par les GANs, la recherche sur les modèles génératifs est un domaine de recherche émergent. Mettre en place un consortium de recherche pour développer les connaissances sur les différents types de modèles génératifs tels que les GAN, les RBM (Restricted Boltzmann Machine) et construire des applications dans plusieurs secteurs permettrait au Québec de devenir chef de file dans ce domaine mais aussi et surtout d’accélérer la recherche en apprentissage profond et le développement de systèmes intelligents. Cette recherche est directement arrimée avec les besoins de plusieurs secteurs stratégiques tels que la finance ou la santé. Ces secteurs, et d’autres avec les mêmes enjeux autour de la confidentialité des données, pourraient d’autant plus élargir leurs activités de recherche en augmentant leur accès à ces données disponibles, mais jusqu’à présent, difficilement exploitable.

http://proceedings.mlr.press/v130/subbaswamy21a.html

Références :

– Cohen, A., & Nissim, K. (2020). Towards formalizing the GDPR’s notion of singling out. Proceedings of the National Academy of Sciences, 117(15), 8344-8352.

– Dwork, C., Smith, A., Steinke, T., & Ullman, J. (2017). Exposed! a survey of attacks on private data. Annual Review of Statistics and Its Application, 4, 61-84.

– Amirsina Torfi, Edward A. Fox, Chandan K. Reddy (2020). Differentially Private Synthetic Medical Data Generation using Convolutional GANs

Mots-clefs : GAN, Santé, Finances, apprentissage, Partage des données, Population synthesis

Organisations pertinentes : CIFAR, MTQ, City of Montreal, Statistics Canada

Personnes pertinentes suggérées durant la consultation :

Les noms suivants ont été proposés par la communauté et les personnes mentionnées ci-dessous ont accepté d’afficher publiquement leur nom. Notez cependant que tous les noms des professeur.e.s (qu’ils soient affichés publiquement ou non sur notre site web) seront transmis au comité conseil pour l’étape d’identification et de sélection des thèmes stratégiques. Notez également que les personnes identifiées durant l’étape de consultation n’ont pas la garantie de recevoir une partie du financement. Cette étape sert avant tout à présenter un panorama du domaine, incluant les personnes pertinentes et non à monter des équipes pour les programmes-cadres.