Au tour de Python

Introduction

Ce présent travail à pour but de récapituler les TD vu en cours et reprends la majorité des points abordés lors de ces derniers. Ce script récupére tout d'abord, le code source d'une page html directement sur internet, le stocle nettoie à l'aide d'expressions régulières, génére un fichier de résultat contenant le code source nettoyé,opérer plusieurs décomptes sur le texte ( plus précisement le nombre de caractères, mots/mots uniques) et le tri par ordre decroissant et enfin génére un fichier de résultat contenant les résultats des décomptes.

Les grandes étapes de mon programme sont résumées dans le schéma ci-dessous:

diag

Traitement et difficultés rencontrées

La page choisi est une page anglophone avec les caractéristiques suivant : text/html; charset=UTF-8. Le choix d'une autre page avec "iso-8859-1" aurait était possible.

En ce qui concerne les difficultés rencontrées, elle sont nombreuses, je cite les plus importantes :

  • Traitement de l'encodage de la page web afin de récupérer toute la page correctement.
  • Faire le découpage des mots dans le page récupérer.
  • Faire le tri des mots , le formatage et l'envoi dans fichier
  • ....

Téléchargement

Afin de consulter le script en version html donc visible directement en ligne cliquez sur ICI, pour la version téléchargable au format archive cliquez ICI, au format pyton (.py) ICI.