Mise en pratique d'exercices avec Python

Objet : initiation au traitement de corpus venant du web en utilisant le langage Python et les expressions régilières.

Consigne :
Elaborer un script en prenant en compte différentes étapes.

Etape 1 : Récupérer le code source d'une page html

J'ai décidé de choisir le site web suivant: lemonde.fr

image

Etape 2 : Nettoyer le code source à l'aide d'expressions régulières

image

Etape 3
: Générer un fichier de résultat contenant le code source nettoyé

image
- fichiers résultats du script contenant le code source nettoyé : ici

Etape 4 : Opérer des décomptes sur le texte (caractères, mots, phrases)

image

Etape 5 : Générer un fichier de résultat contenant les résultats des décomptes (étape faite avant l'étape numéro 4)

image

- fichier résultat du script sur les statistiques : ici

Version complète du script : ici


Question : quelles sont les 5 grandes étapes de votre programme ?

image