Nous avons choisi une page web qui définit ce que c'est "Sciences du langage".

Phyton consistera à nettoyer la page web et à décompter les caractères, puis créera des fichiers de sortie qui contiendront les résultats. Tout ceci se fera à partir des expressions régulières.

Structuration du travail en 5 points:


I. Recuperation des codes sources d'une page html
Ces lignes permettent d'afficher le code source de la page choisie, autant pour crtl-U.
urllib sert à rapporter les expressions régulières contenues dans la page web et re nous permet de séparer ces expressions par une virgule dans la suite des mots où l'on rencontre les expressions.


Vérifier à avoir bien inséré l'adresse de la page qu'on veut nettoyer:lien du site
 

II. Nettoyer le code source à l'aide d'expressions régulières

Comme vous le voyez, les balises html sont encadrées par <> à fin de pouvoir les récupérer, et les textes par des "".
Par dessus les codes, nous avons le rôle de chacun à fin d'avoir une page nette.



III. Création d'un fichier de résultat:"pageweb"

Python créer un fichier du nom pageweb dans le dossier où se trouve le script ; et l'ouvrir en lecture où l'on trouve la page nettoyée.




Découvrez le résultat      Voir la page!
                                     La télécharger!

Remarques: Nous avons créer un dictionnaire dicoFreq qui combinera les mots de la page nettoyée avec leur fréquence d'apparition dans le texte à partir de l'opération ci-dessous.

IV.Operation de décompte sur le texte
Les explications sont apportées au-dessus de chaque expression régulière.


Sachons que:
A part le fichier de sortie pageweb, un autre sera créé pour le résultat du décompte "infostat"
"len()" calcule la longueur d'une liste
"str()" fait une chaine de caractères d'un nombre.
Ces fonctions sont indépendantes l'une de l'autre où str permet de transformer le nombre auquel len renvoie pour en avoir une chaîne de caractères.

V.Fichier de résultat de décompte: infostat
A partir de la création du dictionnaire faite précédemment, on a pu calculer le nombre de mots, de caractères et la fréquence.




On peut parcourir cette structure de la même manière que des listes, à l'aide d'une boucle, afin d'afficher le nombre d'occurence et la fréquence de chaque mot.



Voir
Emplacement des fichiers sortis!
Informations sur le site
Téléchargement:
Script
Infostat