Récupérer un code source et le nettoyer.

Ce programme comporte 5 grandes étapes :

  • Récupérer le code source d'une page html.
  • nettoyer le code source à l'aide d'expressions régulières
  • Générer un fichier de résultat contenant le code source nettoyé
  • Opérer des décomptes sur le texte (caractères, mots, phrases)
  • Générer un fichier de résultat contenant les résultats des décomptes

récupération page web

-Nombre de mots : fichier infostat.txt-