Nettoyage de page web :

Voici le script de notre code de nettoyage de page web en python : na2.py ! Vous pouvez aussi télécharger les deux fichiers de résultats générés grâce à lui : awkwardlingual.txt et statawkward.txt. Ils donnent un aperçu du nettoyage du tumblr AwkwardLingual, un blog amusant qui critique des méthodes de langue :)

Caractéristiques de la page : type text/html, encodage utf-8.

Quelles sont les 5 grandes étapes du programme ?

  • Récupérer le code source d'une page html :
  • Nettoyer le code source à l'aide d'expressions régulières :
  • Générer un fichier de résultats contenant le code source nettoyé :
  • Opérer des décomptes sur le texte (caractères, mots, phrases) :
  • Générer un fichier de résultats contenant les résultats des décomptes :