Exercice Python

* Définition : Python est un langage de programmation qui peut s'utiliser dans de nombreux contextes et s'adapter à tout type d'utilisation grâce à des bibliothèques spécialisées à chaque traitement. Il est cependant particulièrement utilisé comme langage de script pour automatiser des tâches simples mais parfois fastidieuses. Il est particulièrement répandu dans le monde scientifique, et possède de nombreuses extensions destinées aux applications numériques.


Caractéristique de cette page HTML:
Cette page HTML a peu de publicité ce qui a permis un meilleur nettoyage, de plus elle ne comporte pas beaucoup de liens externes, c'est une page que l'on peut qualifier de simple.

Difficultés de traitement de la page HTML:
J'ai rencontré certaines difficultés en nettoyant la page HTML, certaines balises ne s'effaçaient pas lors du nettoyage, il a donc fallu créer de nouvelles expressions régulières afin de les effacer.

Lien pour accéder à la page HTML choisie

* Les 5 grandes étapes de mon programme :

- Récupération du code source de la page HTML:

Code source de la page HTML

- Nettoyer le code source de la page HTML à l'aide d'expressions régulières:

Nettoyage du code source

- Générer un fichier de résultats contenant le code source nettoyé:
Code source nettoyé

- Opérer des décomptes sur le texte (nombre de mots, caractères):

- Générer un fichier de résultats contenant les résultats des décomptes:
Résultat des décomptes