TD L3I02 2012/2013

Reine Patricia

Travail attendu pour le devoir final

Au tour de Python

Introduction

Ce présent travail a pour but de récapituler les TD vu en cours et reprends la majorité des points abordés lors de ces derniers. Ce script récupère tout d'abord le code source d'une page html directement sur internet, le stocke et le nettoie à l'aide d'expressions régulières, génère un fichier de résultat contenant le code source nettoyé, opère plusieurs décomptes sur le texte (plus précisément le nombre de caractères, mots/mots uniques) et le tri par ordre décroissant et enfin génère un fichier de résultat contenant les résultats des décomptes.

Les grandes étapes de mon programme sont résumées dans le schéma ci-dessous:

diag

 

Traitement et difficultés rencontrées :

La page choisi est une page anglophone avec les caractéristiques suivantes : text/html; charset=UTF-8. Le choix d'une autre page avec "iso-8859-1" aurait été possible.

 

En ce qui concerne les difficultés rencontrées, elles sont nombreuses, je cite les plus importantes :

·         Traitement de l'encodage de la page web afin de récupérer toute la page correctement.

·         Faire le découpage des mots dans le page récupérer.

·         Faire le tri des mots, le formatage et l'envoi dans fichier

....

Téléchargement

Afin de consulter le script en version html donc visible directement en ligne cliquez sur ICI, pour la version téléchargeable au format archive cliquez ICI, au format python (.py) ICI.