Travail attendu pour le devoir final

Ici se trouve un script Pyhton, en voici les cinq grandes etapes :

  • Premiere etape : recuperation du code source d'une page html :
  • Deuxieme etape : nettoyage du code source à l'aide d'expressions regulieres :
  • Troisieme etape : generer un fichier de sortie pour stocker le code source nettoye qui se trouve en version complete ici:
  • Quatrieme et cinquieme etapes : operations de quelques decomptes sur le texte et generer un autre fichier de sortie pour y stocker les resultats, qui se trouve ici:
  • Le script en version complete est disponible ici.
  • J'ai choisi cette page web car elle contient enormement de : de types linguistique (texte) et non liguistique (images). Cette page a pour caracteristique d'avoir un encoding XML, un charset UTF-8 et contient du javascript (puisqu'il s'agit d'une page web interactive). Les difficultes dans le traitement et le nettoyage de la page sont le codage des images, de l'arrière plan et des liens revoyant à d'autre site web.