Cette page dédiée présente l’un des thème / domaine stratégique actuellement en discussion dans le cadre de notre Programme de financement de recherche stratégique. L’ensemble des thèmes / domaines en discussion est indiqué sur la page du programme. Chaque page dédiée (y compris celle-ci) peut être à un niveau de détail et de maturité variable. Pour participer à la discussion sur ce thème ou en proposer de nouveaux, veuillez utiliser ce formulaire. Si vous souhaitez être tenu.e au courant des développements autour de ce thème / domaine, inscrivez-vous ci-dessous.

Analyse de mégadonnées financières

Description et justification du domaine

La quantité de données générée par le secteur financier a explosé au cours des dernières années, ce qui apporte son lot de défis et d’opportunités pour la recherche en finance empirique. Le campus de l’Université de Montréal/HEC Montréal/Polytechnique est en excellente posture pour devenir un leader mondial en analyse de mégadonnées financières, combinant l’expertise en science des données ainsi que dans plusieurs champs de la finance empirique qui sont les plus touchés par cette explosion des données.

Cette thématique est alignée avec les plans stratégiques de plusieurs organismes gouvernementaux fédéraux et provinciaux, des organismes subventionnaires et des universités du campus de l’Université de Montréal/HEC Montréal/Polytechnique.

Au niveau fédéral, Statistique Canada a comme objectifs l’innovation grâce à la science des données, la modernisation de l’Enquête sur les dépenses des ménages et la création d’un environnement mondial pour l’écosystème de la statistique économique. De son côté, la Banque du Canada propose de faire évoluer la stratégie de la Banque sur les données en mettant à profit des outils d’analyse et des sources de données afin de stimuler l’innovation dans un monde numérique, de mettre en œuvre des façons de faire permettant d’accélérer l’apprentissage, la recherche et les résultats opérationnels, et d’explorer les implications profondes de la numérisation sur l’avenir de la politique monétaire et de l’économie canadienne. Finalement, cette thématique est alignée avec la stratégie pancanadienne en matière d’intelligence artificielle.

Au niveau provincial, l’Autorité des marchés financiers entend renforcer son intelligence d’affaires et déployer sa stratégie de valorisation des données, publier un rapport énonçant ses attentes relativement au déploiement responsable de l’intelligence artificielle (IA) dans l’industrie financière québécoise et continuera d’assurer le leadership exécutif et de participer aux travaux des ACVM sur le remplacement des systèmes nationaux de données financières, dans le contexte du projet SEDAR+.

La thématique proposée est également alignée avec certains objectifs énoncés du CRSH, soit favoriser les collaborations interdisciplinaires et internationales en recherche, préparer les étudiants à réussir dans le monde de la recherche et promouvoir la science ouverte et l’intendance des données de recherche. Les projets découlant de la thématique pourraient également faire l’objet de subventions Alliance du CRSNG.

Références :

https://www.statcan.gc.ca/fra/apercu/pm/2021-2022/index

https://www.banqueducanada.ca/sujet-banque/direction-gouvernance/plan-moyen-terme-2019-2021-chef-file-nouvelle-ere/renforcer-culture-innovation/

https://www.investircanada.ca/programs-incentives/strategie-pancanadienne-en-matiere-dintelligence-artificielle

https://lautorite.qc.ca/grand-public/publications/publications-organisationnelles/enonce-annuel-des-priorites-2021-2022

https://www.sshrc-crsh.gc.ca/about-au_sujet/publications/strategic_plans-plans_strategiques/2020/momentum-fra.pdf

https://www.nserc-crsng.gc.ca/Innovate-Innover/alliance-alliance/funding-financement_fra.asp

Contexte

Mots-clefs : Finance empirique, mégadonnées, microstructure de marché, finance des ménages, produits dérivés, finance durable, apprentissage machine

Organisations pertinentes

Plusieurs institutions publiques et parapubliques (l’Autorité des marchés financiers, Statistique Canada, la Banque du Canada, la Caisse de dépôt et placement du Québec et the Investment Industry Regulatory Organization of Canada) pourraient être partenaires en fournissant de l’accès à des données et du financement.

Des entreprises de l’industrie de la finance (Banque Nationale du Canada, Desjardins, Groupe TMX) et des regroupements industriels (Finance Montréal, Station FinTech) pourraient également être partenaires en fournissant de l’accès à des données et du financement.

Des entreprises de l’industrie des mégadonnées (Microsoft, Amazon, Google) pourraient être partenaires en fournissant de l’infrastructure, de l’échange de connaissances, et du financement.

Les regroupements pertinents sont :

Personnes pertinentes suggérées durant la consultation:

Les noms suivants ont été proposés par la communauté et les personnes mentionnées ci-dessous ont accepté d’afficher publiquement leur nom. Notez cependant que tous les noms des professeur.e.s (qu’ils soient affichés publiquement ou non sur notre site web) seront transmis au comité conseil pour l’étape d’identification et de sélection des thèmes stratégiques. Notez également que les personnes identifiées durant l’étape de consultation n’ont pas la garantie de recevoir une partie du financement. Cette étape sert avant tout à présenter un panorama du domaine, incluant les personnes pertinentes et non à monter des équipes pour les programmes-cadres.

Programmes-cadres potentiels

Mégadonnées financières: finance empirique, nouvelles méthodes et études d'impact

Axes principaux

Cette thématique se divise en trois axes principaux :

  1. Les projets de recherche en finance empirique qui font usage de mégadonnées.
  2. Les projets de recherche visant à développer de nouvelles méthodes d’analyse spécifiques aux mégadonnées financières.
  3. L’étude de l’impact des mégadonnées sur le système financier.

Le premier axe vise les champs de la finance empirique qui sont les plus touchés par l’émergence des mégadonnées: la microstructure des marchés, la finance des ménages, la finance durable et les produits dérivés.

Le deuxième axe vise le développement de nouvelles méthodes d’analyses des mégadonnées propres aux données financières, comme des techniques de réduction de la dimensionnalité des données de transaction boursières, l’analyse de texte appliquée aux documents financiers, ou l’application de techniques d’apprentissage machine pour découvrir des tendances dans les finances des ménages.

Finalement, le troisième axe est l’étude de l’impact des mégadonnées sur le système financier et la société. Par exemple, l’analyse des vastes quantités d’informations numériques contenues dans les mégadonnées peuvent offrir de nouvelles perspectives pour le suivi de l’activité économique et les institutions gouvernementales peuvent prendre de meilleures décisions en temps réel basées sur les faits saillants.

Microstructure de marché

Les marchés financiers jouent un rôle central dans l’économie en permettant une allocation efficace du capital aux entreprises qui peuvent faire un usage rentable de ce capital. Des marchés efficaces profitent aux entreprises, qui ont un accès moins cher au capital, aux investisseurs, qui obtiennent des rendements plus élevés, et à la société en général, car les avantages pour les entreprises et les investisseurs conduisent à la croissance économique. Il est donc naturel qu’il existe tout un sous-domaine de la recherche économique qui soit consacré à l’étude de la microstructure et de l’efficience des marchés. Un sujet d’intérêt particulier est la façon dont la structure du marché affecte la liquidité, c’est-à-dire la facilité avec laquelle les investisseurs peuvent acheter ou vendre des titres à un prix équitable, et la découverte des prix, c’est-à-dire la vitesse et l’efficacité avec lesquelles les prix du marché reflètent de nouvelles informations sur la valeur fondamentale.

Les marchés financiers modernes sont très complexes. Au cours des deux dernières décennies, les marchés boursiers du monde entier sont passés d’échanges physiques centralisés où les courtiers crient des ordres dans une fosse de négociation à un marché décentralisé dans lequel les courtiers se connectent à une multitude de plateformes de négociation électroniques pour mener leurs affaires. Au Canada, la Bourse de Toronto a fermé sa salle des marchés en 1997 au profit d’une plateforme entièrement électronique. Jusqu’en 2007, toutes les transactions sur les actions du S&P/TSX, qui comprennent les plus grandes sociétés canadiennes, se faisaient à la Bourse de Toronto. En 2013, cette fraction était tombée à 60 %. À ce jour, il existe plus de 15 bourses et autres plateformes électroniques au Canada où de telles transactions peuvent avoir lieu. La fragmentation du marché est encore plus prononcée aux États-Unis, où il existe plus de 200 plateformes de négociation électronique en plus des 13 bourses enregistrées. Cette fragmentation est le résultat de la déréglementation et des avancées technologiques qui ont facilité l’intégration transparente de toutes ces plateformes.

En outre, les améliorations technologiques ont également conduit à l’informatisation des transactions. De nos jours, la majeure partie du volume des échanges est le résultat d’algorithmes informatiques qui échangent entre eux, même dans les cas où un humain prend la décision d’achat initiale. Cela a conduit à une augmentation incroyable du nombre de transactions et de la vitesse à laquelle les ordres sont soumis et annulés. En conséquence, la taille et la complexité des données générées par les bourses ont explosé au cours des 15 dernières années. L’informatisation de la négociation a également permis aux bourses de passer de marchés de spécialistes à des marchés de carnets d’ordres limités continus où tous les participants peuvent fournir de la liquidité.

Données et outils : En microstructure de marché, la recherche se fait principalement à partir des données de marché à haute fréquence (transactions et cotations, résolution allant de microseconde à nanoseconde). La base de données la plus couramment utilisée est NYSE TAQ, qui comprend toutes les transactions et meilleures cotations sur le marché des actions américaines pour toutes les plateformes boursières. Pour l’historique de 2004 à 2020, la taille de ce jeu de données est d’environ 50TB compressé. Conséquemment, la vaste majorité des études se limitent à l’analyse de quelques mois pour quelques actions. Toutefois, celles qui utilisent un long historique et une large distribution d’actions ont généralement beaucoup plus d’impact. Un module Python est en cours de développement à HEC Montréal pour permettre le traitement efficace de ces données sur l’infrastructure de Calcul Canada.

D’autres bases de données, telles que Nasdaq Totalview-ITCH, contiennent tous les messages émanant d’une bourse, ce qui inclut les transactions, mais également tous les ajouts et annulation d’ordres. En plus de leur taille imposante (environs 1TB compressé par année pour Nasdaq uniquement), ces données ont une structure complexe qui nécessite beaucoup d’optimisation pour en faire un traitement efficace. Un module Python a été développé à HEC Montréal pour traiter ce type de données et le développement se poursuit afin de supporter les formats de messages de plusieurs autres plateformes boursières. (https://meatpy.readthedocs.io/en/latest/)

Finalement, les études plus spécifiques sur l’efficience des marchés nécessitent également le traitement d’informations financières qui peuvent être en format texte (nouvelles écrites, rapports financiers), audio (appels conférences suite à l’annonce de résultats trimestriels), et vidéo (conférences de presse de la réserve fédérale américaine, programmes de télévision à saveur économique) et provenir de différents médiums plus ou moins bien structurés (réseaux sociaux). Extraire l’information de ces sources de données nécessite l’utilisateur de techniques d’apprentissage machine.

Finance des ménages

La finance des ménages est l’étude des comportements financiers des individus. Ce champ de recherche fait intervenir différents acteurs, dont les institutions financières, les gouvernements et les individus. Les domaines de recherche principaux sont la gestion financière, l’investissement, la gestion des risques et des assurances, la planification fiscale, la retraite ainsi que la planification successorale. Les résultats de recherche dans ce domaine ont un impact sur les politiques publiques, sur la gestion des affaires des banques et sur les décisions financières des individus.

Données et outils : De plus en plus de données sont disponibles pour effectuer des travaux de recherche sur la finance des ménages. Les grandes institutions financières regroupent souvent des millions de membres, et chacun d’eux effectuent de nombreuses transactions quotidiennes. Les institutions financières enregistrent donc énormément d’information sur les habitudes de consommations, d’épargne et de crédit de leurs clients. Aux États-Unis, l’institut JP Morgan Chase collige ces informations et permet aux chercheurs d’établir des programmes de recherche exploitant ces données. Au Canada, certaines institutions financières ont un partenariat avec la banque du Canada pour le partage de données hypothécaires.

Entre autres, les achats fait de façon électronique sur les cartes de crédit incluent beaucoup d’information, dont le montant dépensé et de l’information textuelle liée au vendeur. Ces informations de consommation couplées aux habitudes de paiement des individus permettent d’analyser d’importantes questions économiques mais nécessitent des techniques d’analyses poussées. Le potentiel d’avancées scientifique dans le domaine est immense et permettra d’extraire des relations de cause à effet et de prédiction des habitudes financières des consommateurs.

Proposition sur les produits dérivés (ajout 22/07)

Un produit dérivé est un contrat financier dont la valeur dépend d’une entité sous-jacente, qui peut être un actif, un indice ou un taux d’intérêt, entre autres. Les produits dérivés sont utilisés pour s’assurer contre les fluctuations de prix (couverture), pour augmenter l’exposition aux fluctuations de prix à des fins de spéculation ou pour accéder à des actifs ou des marchés autrement difficiles à négocier. Le marché des produits dérivés est énorme, non seulement en termes de nombre de contrats négociés, mais aussi en termes de valeur notionnelle et réelle de ces contrats, souvent estimée à plus de 10 fois la taille du produit intérieur brut mondial total. Selon certaines mesures, le marché des produits dérivés est plus important que les marchés des actions, des obligations, des prêts bancaires et des assurances, ce qui en fait l’un des marchés financiers les plus importants. Compte tenu de sa taille et de son rôle central sur les marchés financiers et commerciaux d’aujourd’hui, toute perturbation du marché des produits dérivés peut avoir des conséquences importantes pour la société en général. Il est donc crucial d’avoir une compréhension approfondie du fonctionnement du marché des produits dérivés. Les résultats de cette recherche permettront aux décideurs politiques et aux acteurs du marché de prendre des décisions plus éclairées.

Le marché des produits dérivés est relativement récent par rapport aux marchés des actions et des obligations, les deux des trois principales catégories d’instruments financiers. Ainsi, les données relatives au marché des produits dérivés sont disponibles sur une période plus courte que les deux autres marchés. Cela dit, il existe une multitude de produits dérivés présentant des caractéristiques différentes pour un actif sous-jacent donné. Par exemple, à tout moment, on peut trouver plus de 100 contrats d’options actifs pour une grande action. Cela signifie que les données relatives aux marchés dérivés augmentent chaque jour à un rythme beaucoup plus rapide que celui des autres marchés. En outre, de plus en plus de produits dérivés sont négociés sur des bourses plutôt que de gré à gré, ce qui permet de disposer de données très fiables au niveau des bourses sur les différents types d’ordres sur les produits dérivés à des fréquences toujours plus élevées. C’est pour ces raisons que les données disponibles pour le marché des produits dérivés sont beaucoup plus importantes que celles des autres marchés et nécessitent des outils particuliers pour leur traitement.

Données et outils : Il existe une multitude de sources qui fournissent des données sur le marché des produits dérivés pour différents types de produits. Par exemple, OptionMetrics est l’ensemble de données standard pour les options et IHS Markit fait de même pour les credit default swaps (CDS). Bloomberg est une autre source importante de données sur une variété de produits dérivés. Ces ensembles de données fournissent des informations à basse fréquence (fin de journée) sur les produits dérivés. Cependant, comme mentionné ci-dessus, les données à plus haute fréquence sont maintenant disponibles. Par exemple, l’OPRA (Options Price Reporting Authority) diffuse désormais des données à haute fréquence sur les transactions et les cotations des options. Credit Market Analysis Ltd. (qui fait désormais partie de S&P Capital IQ) fournit des cotations de CDS à haute fréquence. Enfin, Refinitiv Tick History fournit des données haute fréquence sur les carnets d’ordres de premier et de second niveau pour les produits dérivés négociés en bourse.

Cependant, le potentiel de ces nouvelles données de commerce et de cotation à haute fréquence dans les produits dérivés n’a pas été exploré en détail. Andersen et al. (2019) fournissent une étude descriptive des données de commerce et de cotation à haute fréquence des options. Ils observent qu’il n’existe que quelques articles utilisant ces nouvelles données de commerce et de cotation à haute fréquence sur les options. Ils énumèrent deux raisons principales : premièrement, il y a beaucoup plus d’activité de cotation dans les options que dans le sous-jacent. Deuxièmement, comme mentionné ci-dessus, les options présentent une plus grande dimensionnalité avec différentes échéances et prix d’exercice. Cela impose au chercheur une charge de calcul et d’exploitation beaucoup plus importante. Cependant, les universités québécoises et canadiennes se trouvent dans une position avantageuse grâce à l’infrastructure informatique de pointe déjà existante fournie par différents niveaux de gouvernement, comme Calcul Québec et Compute Canada.

C’est pour toutes ces raisons que nous pensons que la recherche utilisant des données à haute fréquence sur les produits dérivés peut avoir un impact significatif non seulement sur le plan académique, mais aussi sur le plan pratique pour les décideurs politiques, les participants au marché et la société en général.

Finance durable (Ajout 22/07)

La finance durable consiste à investir en prenant en compte la réalisation des objectifs environnementaux, sociaux, et de gouvernance (ESG). Ces objectifs incluent, mais ne se limitent pas, à la diminution des émissions de gaz à effet de serre. Le secteur financier joue un rôle clef dans la réalisation des objectifs publics ESG annoncés par les entreprises et les gouvernements. Au niveau mondial, les Principes d’Investissement Responsable (PIR) ont reçu la signature de plus de 3 100 gestionnaires de portefeuilles ayant plus de 140 trillions de dollars canadiens en gestion. Cela constitue un part significative de la richesse mondiale, qui s’établit à 431 trillions de dollars. L’un de ces investisseurs responsables est Laurence D. Fink, fondateur et président directeur général de BlackRock, gérant 9,6 trillions de dollars canadiens à la fin 2019. Sa lettre annuelle de janvier 2020 aux investisseurs souhaite que les entreprises aient une raison d’être au-delà des profits. Enfin, il annonce le désinvestissement des entreprises à haut risque ESG.

Permettre aux investisseurs de mesurer la réalisation de leurs engagements responsables nécessite des données objectives détaillées de l’action des entreprises et de leurs résultats. La responsabilisation par la mesure des actions ESG est le sujet principal de cet axe de recherche.

Données et outils : Obtenir des données objectives détaillées de finance durable au niveau de chaque entreprise est un défi pour au moins trois raisons. Le premier défi est la richesse et la multidimensionnalité des actions ESG des entreprises. Aux États-Unis seulement, les actions ESG de 7,7 millions d’établissements doivent être mesurées, ce qui inclut leur activités environnementales, la gestion de leur main-d’œuvre, et leur structure de gouvernance. Par exemple, l’agence MSCI agrège ces informations pour construire plus de 1 000 sous-indices internationaux pour établir sa notation. Le second défi est le manque d’accord apparent entre les mesures quantitatives ESG fournies par différentes agences de notation: la corrélation entre les notations de différentes agences est faible, à 0,54. Le troisième défi est de comparer les annonces faites par les entreprises aux actions effectives de ces mêmes entreprises. Les entreprises sont plus à même de révéler les informations positives que les informations négatives. En effet, selon le Sustainability Accounting Standards Board (SASB), 90% des événements négatifs ne sont pas contenus dans les rapports de développement durable; et 75% de l’information de ces rapports est déjà contenue dans les rapports financiers annuels.

Les mégadonnées financières permettent de répondre à ces trois défis. La couverture médiatique révèle à haute fréquence des informations riches et non-structurées. Ces lacs de données offrent une vision unique de la perception des actions ESG par le public et des annonces faites par les entreprises. Ces informations textuelles peuvent être analysées par des méthodes d’intelligence artificielle comme par exemple la méthode d’allocation latente de Dirichlet et les machines à vecteurs de support. Un autre type de données est l’ensemble des données d’établissements locaux des entreprises cotées, offrant un regard unique et objectif sur l’impact environnemental et social local des millions d’établissements gérés par les entreprises publiques.

Cet axe de recherche met les mégadonnées financières et l’intelligence artificielle au service des objectifs de finance durable soutenus par le public et les investisseurs.

Documentation complémentaire

AMAYA, Diego, BÉGIN, Jean-François, GAUTHIER, Geneviève; « The informational Content of High-Frequency Option Prices », Management Science, 2021 (statut : en ligne).

BÉGIN, Jean-François, AMAYA, Diego, GAUTHIER, Geneviève, MALETTE-CAMPEAU, Marie-Eve; « On the Estimation of Jump-Diffusion Models Using Intraday Data: A Filtering-Based Approach », SIAM Journal on Financial Mathematics, vol. 11, no 4, 2020, p. 1168-1208.

Intéressé.e? Entrez votre courriel pour recevoir les mises à jour en lien avec cette page :

Historique

23 juin 2021 : Première version

3 juillet 2021 : Ajout de noms de personnes pertinentes.

5 juillet 2021 : Mise à jour de la section « Documentation complémentaire ». Ajout de noms de personnes pertinentes.

13 juillet 2021 : Mise à jour de la section “Programmes-cadres potentiels” et ajout de personnes pertinentes.

22 juillet 2021 : Ajout d’orientations de projet-cadre.