<

Python

    La page html (en iso-8859-1 de type texte et javascript) choisie porte sur notre cher Rousselot (dont on peut d'ailleurs admirer le buste en salle Rousselot à l'ILPGA!).

    Objectif: Produire un script qui peut récupérer une quelconque page web et produire un résumé du contenu de la page.

Le programme comporte 5 grandes étapes qui sont illustrées ci-dessous:


I-

Récupérer le code source d'une page html




II-

Nettoyer le code source à l'aide d'expressions régulières





III-

Générer un fichier de résultat contenant le code source nettoyé





IV- Opérer des décomptes sur le texte (caractères, mots, phrases)

&

V- Générer un fichier de résultat contenant les résultats des décomptes





Sans oublier de fermer le fichier!




Voici le script commenté ici

Le résultat ici