Devoir final

  • Script téléchargeable ici.
  • Fichiers de résultats générés par notre script téléchargeables ici et .
  • Les cinq grandes étapes de notre programme :
    • Récupérer le code source d'une page html
    • Nettoyer le code source à l'aide d'expressions régulières
    • Générer un fichier de résultat contenant le code source nettoyé
    • Opérer des décomptes sur le texte (caractères, mots, phrases)
    • Générer un fichier de résultat contenant les résultats des décomptes
  • Nous avons refait les exercices du semestre.
  • La page web que nous avons nettoyé est la page d'accueil de l'ILPGA. Elle est en latin 1 et contient du javascript. Elle était compliquée à nettoyer car elle contenait beaucoup d'indentations et de "non-breakable space".