Python pour la data science

Un cours complet pour découvrir le langage

Insee

24/09/2024

Présentation

  • Expérience traitement big-data et NLP:
    • Cours opinionated ;
    • Des conseils et des recommandations issues de l’expérience

Note

  • :
    • pour suivre l’actualité du réseau des data-scientists ;
    • si vous êtes intéressés par travailler dans l’administration ;

Objectifs du cours

  • Pouvoir utiliser Python pour l’ensemble du processus de valorisation des données :
    • Récupérer et structurer des données ;
    • Manipuler ;
    • Visualiser ;
    • Modéliser.
  • Comprendre comment Python sert dans une démarche de recherche ou de production ;
  • S’initier à la question de la reproductibilité (open-source, open-data…) ;
  • Découvrir la pratique moderne de Python dans le monde de la data-science ;
  • Découvrir qu’on peut faire des choses sympa avec Python .

Organisation du cours



  • Cours dure 21h avec des séances de 3h ;
  • Apprentissage par la pratique à partir de TP ;
  • Validation avec un projet de fin de semestre
    • Plus de détails dans quelques instants

Contenu mis à disposition

  • Des tutoriels et exercices sous format Jupyter Notebook :
    • Possibilité de les tester sur des environnements temporaires d’exécution

Onyxia Onyxia

Environnement pour les TD

Vous devez utiliser le SSPCloud https://datalab.sspcloud.fr pour les TD et il est recommandé de privilégier VSCode dessus (pas de debug garanti sur d’autres environnements)

Onyxia

Examen

  • Projet collaboratif s’appuyant sur Python répondant à une démarche scientifique et ouverte:
    • Projet disponible sur Github
    • Le projet doit être documenté
  • Sujet libre :
    • Discutez avec votre chargé de TD pour avoir un avis ;

Important

  • Exigence de reproductibilité
    • Projet utilisant des sources open-data ou scrappant des sites publics ;
    • Code doit pouvoir être répliqué par chargé TD ;
    • Pas un projet Kaggle !

Examen

  • Approfondir des aspects du cours:
    • Trois dimensions doivent être présentes dans le projet: manipuler, visualiser ou modéliser ;
    • Plus ou moins loin selon les projets.
  • Exemples de sujets passés :
    • Suggestions de trajets pour cyclistes ;
    • Création d’un système de réponse automatique aux tweets mentionnant la RATP ;
    • Visualiser les performances des athlètes sur des courses niveau amateur ou professionel ;
    • Comparer la performance de modèles de gestion de portefeuille ;

Important

Deadline en décembre 2024, date précisée ultérieurement

Exemple d’accès aux ressources Pandas

Par le biais direct du site pythonds.linogaliana.fr/

Par le biais du portail de formation du www.sspcloud.fr/formation/