Atelier sur le nettoyage et l’exploration de données

Partagez l'événement

Public cible et pré requis

  • Cette formation s’adresse à un public large mais est surtout façonnée pour des professionnel.le.s de métier ayant un Baccalauréat en Sciences et des connaissances mathématiques. Par exemples, des analystes financiers, chercheur·e·s bio-médicaux, ingénieur·e·s, statisticien·ne·s du gouvernement, etc.
  • La formation sera donnée en français avec du matériel de présentation en anglais.
  • Vous devez avoir des bases de programmation, préférablement en Python pour pouvoir suivre cette formation.
  • Veuillez apporter votre ordinateur portable avec un navigateur web et le logiciel OpenRefine installé.

Description

OpenRefine est un projet ouvert permettant le nettoyage et la bonification des données. Outil incontournable du scientifique de données, il permet de conserver le fichier original intact, de garder une trace des manipulations sur les données, d’annuler une modification facilement, de sauvegarder des routines et de les appliquer à d’autres fichiers.

Dans cette formation, vous apprendrez à utiliser le logiciel et à créer des routines réutilisables sur d’autres fichiers. Vous vous familiariserez aussi avec l’exploration des données ainsi que certaines bonnes pratiques en manipulations de données.

Cette formation vous permettra aussi d’effectuer une analyse de données de base, du chargement des données dans Python à une visualisation finale. Pour ce faire, vous découvrirez notamment les bibliothèques Pandas et une bibliothèque de visualisation telle que Matplotlib ou Plotnine. L’analyse des données se limite à la sélection de certaines entrées, à la transformation temporaire des données, au calcul de statistiques simples et à l’automatisation de tout ce processus d’analyse.

Objectifs

Cette formation comportera des explications magistrales et des applications pratiques en simultané et interactif. A l’issue de ces deux jours, vous serez en mesure de :

  • Réaliser de l’exploration et du traitement de données avec Python et Pandas
  • Nettoyer vos données avec OpenRefine

Ressources

Si vous souhaitez vous préparer en amont de la formation, voici deux ressources utiles en libre accès:
Rudiments de programmation
Rudiments de ligne de commande

Vous avez des questions au sujet de cette formation?

Contactez-nous à l’adresse: formations@ivado.ca

Programme

29 janvier 2020

Heures de la formation : de 9h à 16h30

  • Nettoyage de données avec OpenRefine
  • Filtres et “facetting”
  • Transformations communes
  • Identification et correction de mauvaises entrées et erreurs de frappe
  • Utilisation du langage GREL
  • Automatisation des modifications
  • Réconciliation des données
  • Bonification de données (API)

30 janvier 2020

Heures de la formation : de 9h à 16h30

  • Exploration et traitement de données avec Python et Pandas
  • Lecture et sélection de données
  • Statistiques descriptives
  • Types de données
  • Combinaison de jeux de données
  • Flux de données et automatisation
  • Visualisation de données avec Python
  • Intégration de Python et bases de données relationnelles

Conférencier·ère·s

Pier-Luc St-Onge

Analyste scientifique

Calcul Québec

Julie Faure-Lacroix

Agente de liaison scientifique

Calcul Québec

Organisateur·trice·s

Nathalie Sanon

Gestionnaire du programme de formation