Retour Partie 1

    Nettoyer une page web à l'aide d'expression régulière

    Nous devons maintenant nettoyer la page des balises html. Dans un premier temps nous allons ajouter "re" à la liste des modules à ajouter (séparés par des virgules) :
      <-- les expressions régulières sont maintenant disponibles avec le préfixes "re"
    Tout d'abord nous insérons cette ligne après la lecture de la page suivante:
  • texte = re.sub("<.*?>","",codehtml)
Nous prenons la chaine de caractère contenant toute la page (avec son code), nous appliquons une moulinette d'un remplacement avec des expressions régulières, et la sortie, après remplacement est mis dans la variable texte.
    Quelques exemples d'expressions régulières nous permettant de nettoyer la page :
  • texte = re.sub("<.*?>","",codehtml)
  • texte = re.sub("&nbsp;","",texte)
  • texte = re.sub("&quot;","'",texte)
    Comprenons comment cela est rendu possible :
    Il s'agit d'une fonction qui permet de faire des substitutions dans les textes. Il y a 3 arguments : - pattern (= expression régulière, on cherche les motifs à retirer du code) - repl (= chaîne de caractères qui va remplacer ce que l'on ne veut pas) - string (= application de la procédure sur la chaine de caractères contenue dans la variable codehtml)
    Prenons l'exemple de l'expression régulière suivante:
  • texte = re.sub("&eacute;","é",codehtml)<-- on souhaite remplacer l'expression règulière "&eacute;" par "é".
    Rien de bien compliquer !