Python

Cette partie de mon site est dédiée aux travaux faits avec le logiciel Python. J'ai écrit un code Python qui récupère une page web, qui nettoie son code source à l'aide des expressions régulières, qui crée un fichier sortie avec ce code, et qui opère des descomptes dur cette page, tout en créant un autre fichier sortie avec ces statistiques.

Ci-dessous vous trouverez les liens qui vous amènereont vers ces documents :

Cliquez ici pour voir le script Python.

Cliquez ici pour voir le fichier pageweb.txt, où se trouve le code source de la page web nettoyée.

Cliquez ici pour voir le fichier infostat.txt, où se trouvent quelques informations concernant la page web, comme le nombre total de caractères, de mots, une liste de tous les mots avec leurs frèquences d'apparition dans le texte, le nombre moyen de mots par phrase, etc.

Et voici juste une petite capture d'écran d'une partie de mon code Python :


Les 5 grandes étapes de mon programme sont : la récupération d'une page web, le nettoyage de son code source, la création d'une dictionnaire (dicoFreq), l'ouverture des fichiers où on écrit certaines statistiques sur le code source de la page web, et la fermeture de tous ces fichiers.

La page web que j'avais choisie pour nettoyer était une page contenant un article du journal "The Toronto Star". J'avais des difficultés à nettoyer cette page, car il y avait beaucoup de publicités, de photos, et de liens vers d'autres pages.