Les statistiques sont alarmantes : la pandémie a eu un effet désastreux sur la sécurité des enfants en ligne. Plus connectés et accessibles que jamais, les jeunes sont la cible d’individus qui font de la prédation sexuelle sur Internet. Détecter le pédopiégeage en ligne devient donc primordial pour les protéger.
De 2014 à 2020, 4,3 millions de cas d’exploitation sexuelle ont été rapportés à Cyberaide, la centrale canadienne de signalement des cas d’exploitation sexuelle d’enfants sur Internet. Pour le meilleur et pour le pire, les avancées technologiques et la démocratisation d’Internet ont transformé la société. Aujourd’hui, au Canada, presque tous les jeunes ont un téléphone cellulaire et utilisent les réseaux sociaux, et ce, dès l’enfance. En l’espace de quelques clics, les pédophiles ont maintenant accès à des centaines de potentielles victimes.
De plus, l’augmentation importante du temps d’écran et l’isolement dus au confinement ont entraîné des conséquences catastrophiques. Ainsi, Cyberaide enregistre une augmentation de 88 % des incidents d’exploitation en ligne au Canada depuis le début de la pandémie. De tels chiffres s’expliquent par le fait que les parents ont très peu de contrôle sur l’entourage virtuel de leurs enfants. En effet, bien que des mécanismes de contrôle parental existent, ces derniers sont souvent très intrusifs et ne respectent pas la vie privée des jeunes, qui ont alors tendance à privilégier des plateformes de communication non modérées. Trouver un équilibre entre sécurité et vie privée est donc nécessaire. C’est là que mon projet de recherche entre en compte. Son objectif : avertir les parents lorsque leur enfant est victime de pédopiégeage, et ce, sans leur donner accès aux conversations de leur progéniture.
Ma solution tient en deux étapes. La première vise le développement d’un modèle de neurones artificiels qui pourra repérer les messages de pédopiégeage le plus tôt possible. La seconde consiste en l’implantation de ce modèle à l’aide de l’apprentissage fédéré, une approche décentralisée et collaborative qui me permettra d’entraîner mon modèle sur les téléphones cellulaires des personnes utilisant les réseaux sociaux et de n’envoyer au serveur central que les mises à jour à apporter au modèle. Il est important de noter que 2,2% des infractions sexuelles reportées à la police étant commises par des femmes, en personne et non en ligne, très peu de données existent sur le sujet. La littérature, les données et les modèles sur lesquels se basent mon étude sont donc liés à de la prédation masculine exclusivement, puisqu’il n’existe pas assez d’informations pour supposer que les prédatrices femmes ont les mêmes comportements en ligne. Dans la suite de cet article, nous référons donc à des prédateurs hommes. Toutefois, nous ne minimisons pas les actions commises par des prédatrices femmes qui peuvent aussi être néfastes et devraient faire l’objet d’études distinctes.
Si je suis en mesure d’entraîner un modèle pouvant repérer les messages des prédateurs sexuels, c’est parce que ces derniers ont un mode de communication atypique. Dans Entrapping the innocent: Toward a theory of child sexual predators’ luring communication, la chercheuse Loreen N. Olson propose un modèle de communication des prédateurs et décrit le pédopiégeage comme un cycle constitué de plusieurs phases ayant des caractéristiques propres. Par exemple, « la désensibilisation » renvoie au processus visant à désensibiliser la potentielle victime au contact sexuel par l’utilisation hors contexte de termes sexuels (cum plutôt que come) et le « recadrage », qui présente le contact sexuel de manière ludique (messing around, playing, learning).
Le modèle de réseaux de neurones que j’entraînerai se basera sur ces indices linguistiques pour distinguer les messages « normaux » des messages de pédopiégeage après avoir été entraîné sur une base de données étiquetées. Durant la phase d’entraînement, le modèle cherchera à établir des liens et des schémas pour définir les différentes catégories. Les apprentissages réalisés durant cette phase seront ensuite utilisés pour classifier de nouveaux messages, qui n’auront jamais été vus par le modèle, afin de vérifier la validité de ce dernier.
Pour que ma solution puisse fonctionner, mon modèle devra avoir accès aux conversations en temps réel. Or, ce type de données est extrêmement sensible. De plus, l’une des principales limitations à mon étude est le manque de données étiquetées disponibles : les données existantes datent de 2012, ce qui n’est pas idéal puisque le langage sur Internet évolue très rapidement. Pour remédier à ces problèmes, j’ai décidé d’implanter mon modèle en utilisant l’apprentissage fédéré. Son principe est simple : l’apprentissage fédéré me permettra d’envoyer mon modèle directement sur les cellulaires des personnes utilisatrices et de l’entraîner localement (plutôt que d’envoyer les données à un serveur central). Ces personnes seront en mesure d’étiqueter elles-mêmes leurs données, et, en ayant accès à leurs conversations, l’algorithme pourra détecter la présence de messages de prédation sexuelle. Implanter un tel mécanisme sur les réseaux sociaux permettra donc de rendre l’environnement virtuel des jeunes un peu plus sécuritaire, sans mettre en jeu la confidentialité de leurs données.
Bien qu’il existe plusieurs limites à mon approche – notamment relativement à la disponibilité de données étiquetées –, la croissance importante dans les dernières années du nombre de cas d’exploitation sexuelle des enfants pousse à agir. Internet a créé un tout nouveau terrain de jeu pour les prédateurs, et les règles ont changé. Comme l’expliquait les journalistes Caroline Touzin et Gabrielle Duchaine dans leur enquête exclusive publiée en 2020 par La Presse : « Le prédateur sexuel n’est plus dans le parc. Il est désormais dans l’écran du cellulaire de votre enfant. »
Cet article a été réalisé par Khaoula Chehbouni, étudiante à la maîtrise — Intelligence d’affaires (HEC Montréal), avec l’accompagnement de Marie-Paule Primeau, conseillère en vulgarisation scientifique, dans le cadre de notre initiative « Mon projet de recherche en 800 mots ».