Retour vers Accueil

Partie 1

Nous avons cette année travaillé sur le Python, en récupérant une page web et en la nettoyant à l'aide d'expressions régulières.
Nous avons ainsi choisi une page consacrée aux monty python dont voici le script.

Ici, le but est alors de nettoyer une page et d'en extraire certaines informations.


  • ETAPE 1 : RECUPERATION DU CODE SOURCE D'UNE PAGE WEB

* à noter que ISO-8859-1 est la norme de codage des caractères en informatique pour l'alphabet latin


  • ETAPE 2: NETTOYAGE DE NOTRE PAGE WEB:



  • ETAPE 3: GENERER UN FICHIER DE RESULTATS DU CODE SOURCE NETTOYE:

*à noter, ne pas oublier de fermer le fichier !

  • ETAPE 4: OPERER DES DECOMPTES SUR LE TEXTE, EFFECTUER DES STATISTIQUES:
Nous avons ainsi effectué diverses opérations :



Puis, on souhaite obtenir la fréquence de chaque mot, on va alors créer un dictionnaire que l'on nomme dicoFreq, on souhaite alors avoir une liste de mots avec leur occurence associée:


Puis on écrit le résultat dans un fichier de sortie ainsi que trier la sortie du dicoFreq:


Après ces diverses opérations sur les caractères et mots, on peut aussi compter le nombre de lignes contenues dans le fichier:



Lien vers le code source de la page web
Lien vers le script entier
Lien vers les statistiques opérés, le dossier infostat
Lien vers la page web nettoyée