Travail attendu pour le devoir final

Nous allons travaillé sur un fichier html que l'on va prendre d'un site. Nous avons choisi de travailler à partir de la page web suivante: sorbonne-nouvelle.fr

Pour commencer nous allons commander à python de récupérer le code source de la page html


on écrit cette commande sur idle

récupération page web
on clique sur run module et on obtient:

résultat récupération page web
Étant donné que l'on ordonne la lecture et non la réécriture du code de la page web il est normal que rien ne s'affiche.

Maintenant on va nettoyer le code source à l'aide d'expression régulières

On note donc ceci à la suite de ce que nous avons précedemment noté dans idle.

nettoyage du code source

Grâce à cette commande on va obtenir dans nos documents un fichier texte où l'on retrouvera le code source nettoyé.

pageweb.txt

Télécharger le fichier texte pageweb.txt

Le nettoyage n'est qu'une étape qui permet de faire des choses plus "utiles".

 On va à présent opérer des décomptes sur le texte.

Nous allons commencer par compter le nombre de caractères présent sur la page web. On ajoute donc à la suite des commandes précédentes celle-ci:

nombre caractères

on obtient donc la création d'un fichier nommé infostat.txt on l'on peut lire ceci:

infostat.txt

Télécharger le fichier texte infostat.txt

Ensuite nous allons compter le nombre de mot présent sur la page web et créer une liste.

Nous allons pour cela ajouté une ligne de commande entre l'ouverture et la fermeture du fichier infostat de ce fait le résultat s'ajoutera à la suite du résultat donnant le nombre de caractères.

nombre de mots

On obtient une liste de ce type:

liste mot

Télécharger infostat.txt pour visualer le résultat final. (le fichier a été renommé infostatbis.txt pour le différencier du précédent fichier portant le même nom).

La fonction split est celle qui permet la segmentation du texte

À présent nous allons calculer le nombre de phrase présentes dans le fichier.


Nous allons calculer ce nombre à partir du fichier pageweb.txt.

nombre de phrases

On obtient ce résultat affiché directement sur l'idle de Python:

résultat phrase

On peut éventuellement calculer des moyennes.

Nous allons calculer la moyenne de mots par phrase.

On ajoute à la suite des commandes précendantes ceci:

moyenne

voilà le résultat qui s'affiche

moyenne résultat

Voilà à quoi ressemble tout le programme qui permet l'exécution de toutes ces commandes:

commande


Les 5 grandes étapes de notre programme:

  • la récupération de la pageweb en code html
  • le netoyage du code
  • la récupération du code nettoyé
  • le calcule de statistique sur la base du code nettoyé
  • les résultat, création de fichier (pageweb.txt, infostat.txt)


 Nous avons choisi une page web assez simple, ne contenant pas de javascript et donc assez simple à nettoyé et à utiliser. Le seul problème rencontré est le découpages de caractères puisque par exemple les "é" sont noté par 2 caractères dans le codage html, de ce fait le calcul du nombre de caractère se retrouve en quelque sorte faussé.