PYTHON

Dans cette partie nous allons traiter les différentes étapes vues en classe sur python


1ere étape: la récupération d'un code source d'une page html

Nous allons d'abord choisir le site que nous voulons nettoyer. Dans cet exemple, nous avons choisi le site de wikipedia sur le curling!

voici la capture d'écran expliquant les étapes à suivre pour la récupération du code source d'un site:

2ème étape: Le nettoyage du code source grâce aux expressions régulières

L'expression régulière présente une forme particulière, texte=re.sub(pattern,repl,string)

pattern représente l'expression régulière

repl veut dire que l'on remplace cette expression par ce que l'on veut

string est la chaîne de caractères sur laquelle on applique l'expression régulière

L'expression régulière vue en classe est la suivante <.*?>

le point"." représente n'importe quel caractère

* représente tout ce qui précède l'étoile

et ? fait en sorte que l'étoile prenne le moins de caractères possible

voici les expressions régulière qui nous ont permis de nettoyer la page web

3ème étape: La création d'un nouveau fichier contenant notre page web nettoyée

Page nettoyée : Cliquer ici !

4ème étape: Comptage du nombre de caractères, mots et phrases

Nous allons commencer par le comptage des mots . Pour cela,nous allons d'abord segmenter le fichier en mots grâce à l'expression expr = re.compile("\W+",re.U), nous utilisons par la suite la fonction "set" pour les compter puis nous employons l'expression"sorted" pour trier par ordre alphabétique et nous encodons la sortie. Voici le script

Maintenant nous allons créer dicoFreq afin de lister la fréquence des mots de la page web

Nous allons maintenent calculer le nombre de caractères présents sur la page web . Nous allons donc introduire la fonction "len" pour calculer et nous allons créer un fichier pour écrire le résultat obtenu; ici ce fichier est appelé infostat

Fichier de statistiques : Cliquer ici !

Pour terminer nous allons calculer le nombre de phrases de la page web . Nous allons employer la fonction"split" afin de séparer les phrases.Puis nous créons un compteur afin de les compter.

Et voilà la partie Python est terminée!!!