Lors d’une démarche de recueil ou de demande d’accès à de l’information, les documents sources peuvent être fournis caviardés ou anonymisés, c’est-à-dire que les données sensibles ont été noircies ou remplacées par des données fictives afin d’empêcher l’identification d’individus. Scruter des pages et des pages de texte à la recherche de noms propres, d’adresses, de données médicales, financières, ou autres, pour aboutir à ce résultat peut s’avérer fastidieux… à moins de confier ce travail à des algorithmes. Il s’agit justement de l’objectif d’un projet de recherche que nous menons en partenariat avec Irosoft, une entreprise spécialisée dans la valorisation des données.
Certaines techniques d’apprentissage profond permettent en effet d’enseigner aux algorithmes le repérage d’informations sensibles dans un texte. L’entraînement doit pour cela s’opérer à partir de documents dans lesquels ce type d’informations auront préalablement été étiquetées à la main. Bien entendu, les documents ne peuvent pas renfermer tous les prénoms, noms de villes, dates de naissance, etc. existants, mais les algorithmes peuvent apprendre à les identifier selon le contexte. Par exemple, ils reconnaîtront un nom de personne lorsque celui-ci est précédé de « Monsieur » ou « Madame ». De tels algorithmes existent déjà, mais ils sont toujours entraînés sur les mêmes ensembles de textes, à des fins strictement académiques d’amélioration de leur performance.
Avec Irosoft, on a étudié des algorithmes dans des situations différentes de celles du milieu académique. On s’est posé des questions que les scientifiques ne se posent jamais.
Philippe Langlais
Professeur, DIRO de l’Université de Montréal
Or, Irosoft rencontre des besoins d’anonymisation au niveau de documents de nature médicale, juridique, financière, ou autre, contenant des informations sensibles spécifiques, telles que des noms de médicaments ou d’institutions financières. Dans de tels contextes, un nom commun peut devenir une donnée sensible. Autre cas de figure, « dans les documents juridiques où il est omniprésent, le mot jugement sera insignifiant, mais il pourrait devenir un indice pour identifier une personne dans un autre domaine », illustre Alain Lavoie. Heureusement, il existe des corpus de documents issus de divers domaines et dont les informations sensibles ont déjà été étiquetées.
C’est une belle collaboration entre industriels et chercheurs, prolifique pour les deux côtés et qu’on souhaite poursuivre.
Alain Lavoie
Président et cofondateur d’Irosoft
C’est à partir de ce type de corpus que Philippe Langlais a entraîné et testé les algorithmes. « Dans chacun de ces corpus, il y a des données sensibles et on s’en est servi pour tester des algorithmes entraînés sur d’autres corpus », rapporte-t-il. « Il s’avère que d’un domaine à l’autre, l’apprentissage de l’algorithme est différent et nécessite donc des adaptations pour pouvoir être appliqué à un autre domaine que celui pour lequel il a été initialement entraîné. La solution est de trouver des correspondances d’étiquettes qui permettent de basculer d’un domaine à un autre », poursuit-il.
Toutefois, « la reconnaissance des informations sensibles n’est qu’une première étape vers l’anonymisation », tient-il à préciser. Maquiller ces informations pour prévenir l’identification de personnes, tout en gardant le texte intelligible, sera une toute autre affaire.