Nettoyage de code HTML

Le but de cette partie est de créer un script Python pour récupérer le code HTML d'une page web, le nettoyer de toutes les balises, c'est à dire d'employer des expressions régulières pour voir que ce qui nous intéresse

  • Page choisie

  • Mon script python


  • Ce script constitue la base du code html ,ce sont les étapes fondamentales:
  • importation des URL dans la librairie
  • ouverture de la page web
  • lecture du code html
  • ouverture/ creation de fichier
  • ecrire le code html dans le fichier
  • enfin fermer le fichier
  • Il est ensuite nécessaire de nettoyer le code source, à l'aide d'expressions régulières. Les expressions régulières sont des sortes de codes qui permettent de visualiser en enlevant ou en ajoutants des caractères, chiffres,(...) On a par exemple: La fonction re.sub permet de faire des remplacements dans un texte. Elle possède une syntaxe particulière
  • re.sub ("ce que je veux remplacer", "par quoi je veux remplacer", "dans quoi je veux remplacer")
  • montexte=re.sub("<.*?>","",codehtml)
  • ...
  • Avec Python, on peut vraiment varier les tâches, on peut aussi trouver des occcurences de mots, trier un texte (grâce à "set"), découper certains caractères (grâce à expr.split)...
  • Mon deuxième script python



  • Python est un excellent outil informatique, notamment pour les linguistes, car il permet de faire toute sortes de choses, comme vous pouvez le voir dans mon second script, il permet aussi de calculer la longueur totale du texte, récuperer une liste de mots, calculer la moyenne du nombre de mots(...)