• Récupérer le code source d'une page html

recupcodesource

 

 

Les deux premières lignes (en rouge) disent où se trouve python et quel encodage utiliser au cas où le script contiendrait des caractères non ASCII (donc par exemple accentuées).

La ligne suivante «import urllib » permet de lire du code html et d’ouvrir une page.

La quatrième ligne elle, ouvre l’adresse qu’on lui donne (ici les champignons).

La cinquième ligne indique la demande de lire la page web, à la fin, « code html » contient tout ce qui a été lu depuis html.

Print est une fonction qui permet d’écrire dans le Shell.

 

ecritcodesource

Là, on crée un fichier prêt à recevoir des données en écriture. « w » signifie en mode écriture. « « pageweb.txt » contient le code source de la page « les champignons.fr » grâce à « fichier.write(html ».

Pour voir la page non nettoyée cliquez ici

 

 

    • Nettoyer le code source à l'aide d'expressions régulières

nettoiecodeexpreg

« re » permet d’importer et donc utiliser des expressions régulières.

La deuxième ligne est composée de « texte », l’endroit où l’on range le résultat de « re.sub(« <.* ? », « « »,codehtml) ; « re » appelle une fonction de la librairie re et sub est une fonction de restitution. Les expressions régulières utilisées sont « . » qui signifie « tous caractères », « * » de 0 à l’infini (autant qu’il y en a), « ? » est un opérateur non glouton. Entre les  «  » comme on n’a rien mis c’est pour signifier qu’on ne souhaite pas remplacer ce qu’on a supprimé, on a donc remplacé les balises par rien.

 

 

    • Générer un fichier de résultat contenant le code source nettoyé

ecritpagenette

La première ligne ouvre un fichier nommée pagenette, la deuxième écrit dedans le code source nettoyée et la troisième ferme le fichier.

 

Pour voir la page nettoyée cliquez ici

 

 

    • Opérer des décomptes sur le texte (caractères, mots, phrases)

DERNIER EX

Pour voir le résultat cliquez ici