Retour Partie 1

    Récupérer le code source d'une page html

    Les différentes étapes pour récupérer une page du web

    1. Pour récupérer une page web contenant du texte, il faut procéder de la manière suivante:

    - Aller sur la page qui nous intéresse,
    - Récupérer le script qui nous permet de récupérer la page web:
- Copier/ Coller l'adresse url de cette page sur le script:
--> "url"(On stocke le résultat dans une nouvelle variable) et "urlopen"(on appelle la fonction "urlopen" de cette bibliothèque. La fonction prend un argument:l'URL).
    - Enregistrer le fichier sous le nom souhaité

2.Commentons maintenant les différentes variables...

Les deux premières lignes sont plutôt techniques, elles disent où se trouve python et quel encodage utiliser au cas où notre script contiendrait des caractères non ASCII (donc par exemple accentuées):

  • #!/usr/bin/python
  • #-*- coding: utf-8 -*-

On importe donc un module du nom "urllib",une abréviation anglaise pour "URL library", en français "bibliothèque URL". Elle contient des commandes pour interagir avec les URL,donc avec internet.

  • import urllib, re
  • codehtml = url.read()
    - On lit la page entière et on stocke le résultat dans une nouvelle variable qu'on appelle codehtml. Cette variable contient maintenant le code de la page entière.
    - Il nous manque une ligne pour voir ce qu'elle contient :
  • print codehtml
Cette commande nous affiche dans la ligne de commande (le "shell") le contenu de la variable "codehtml".