--> Choix de la page HTML: j'ai choisi la page d'accueil de l'ILPGA étant donné qu'il s'agit de mon UFR.



--> Caractéristiques de cette page: cette page HTML est simple à traiter puisqu'il n'y a pas de publicités.

--> Difficultés rencontrées: bien que cette page soit simple à traiter, j'ai eu quelques difficultés lors du nettoyage du code source, car certaines balises ne s'effacaient pas.

--> Les 5 grandes étapes de mon programme:


le script entier ici

--> 1ère étape: récupération du code source d'une page html (montrer code source)


code source

--> 2ème étape: nettoyage du code source



--> 3ème étape: générer un fichier de résultat contenant le code source nettoyé
code source nettoyé

--> 4ème étape: opérer des décomptes sur le texte



--> 5ème étape: générer un fichier de résultat contenant les résultats des décomptes
résultat des décomptes