Python pour la data science

Un cours complet pour découvrir le langage

Insee

16/09/2025

Présentation

  • Expérience traitement big-data, données géographiques et NLP:
    • Cours opinionated ;
    • Des conseils et des recommandations issues de l’expérience.

Note

  • :
    • si vous êtes intéressés par travailler dans l’administration ;

Objectifs du cours

  • Pouvoir utiliser Python pour l’ensemble du processus de valorisation des données :
    • Récupérer et structurer des données ;
    • Manipuler ;
    • Visualiser ;
    • Modéliser ;
    • Le cas spécifique des données textuelles.
  • Comprendre comment Python sert dans une démarche de recherche ou de production ;
  • S’initier à la question de la reproductibilité (open source, open data…) ;
  • Découvrir la pratique moderne de Python dans le monde de la data science ;
  • Découvrir qu’on peut faire des choses sympa avec Python .

Organisation du cours



  • Cours dure 21h avec des séances de 3h ;
  • Apprentissage par la pratique à partir de TP ;
  • Validation avec un projet de fin de semestre
    • Plus de détails dans quelques instants

Contenu mis à disposition

  • Des tutoriels et exercices sous format Jupyter Notebook :
    • Possibilité de les tester sur des environnements temporaires d’exécution

Onyxia Onyxia

Environnement pour les TD

Vous devez utiliser le SSPCloud https://datalab.sspcloud.fr pour les TD et il est recommandé de privilégier VSCode dessus (pas de debug garanti sur d’autres environnements)

Onyxia

Exemple d’accès aux ressources Pandas

Par le biais direct du site pythonds.linogaliana.fr/

Par le biais du portail de formation du www.sspcloud.fr/formation/

Examen

  • Projet collaboratif s’appuyant sur Python répondant à une démarche scientifique et ouverte:
    • Projet disponible sur Github
    • Le projet doit être documenté
    • Les consignes et le barême sont ici, suivez les !
  • Sujet libre :
    • Discutez avec votre chargé de TD pour avoir un avis ;

Important

  • Exigence de reproductibilité
    • Projet utilisant des sources open data ou scrappant des sites publics ;
    • Code doit pouvoir être répliqué par chargé TD ;
    • Pas un projet Kaggle !

Examen

  • Approfondir des aspects du cours:
    • Trois dimensions doivent être présentes dans le projet: manipuler, visualiser ou modéliser ;
    • Plus ou moins loin selon les projets.
  • Deadline en décembre 2025, date précisée ultérieurement

Exemples de sujets passés

  • Création d’un système de réponse automatique aux tweets mentionnant la RATP ;
  • Si les bouchers charcutiers observent mieux la criminalité que l’Insee, est-ce parce qu’ils s’installent là où le crime sévit ?
  • Visualiser les performances des athlètes sur des courses niveau amateur ou professionel ;
  • Analyse de langage sur les discours des députés français ;
  • Comparer la performance de modèles de gestion de portefeuille ;
  • Statistiques sur les prénoms dans les nominations en cabinets ministériels.