Python


Cette partie présente l'extraction et le nettoyage d'une page web (ici un article du Monde.fr), ainsi que des statistiques réalisées sur cette page, à l'aide du logiciel de programmation Python.
J'ai choisi cette page web car elle est complète : elle contient du texte, des images, des liens, vidéos... Elle est encodée en ISO-8859-1.
  • Configuration du script
python1


  • Récupération du code source
python2


  • Nettoyage du code source
python3


  • Création d'un fichier résultat
python4


  • Statistiques et stockage des résultats dans un fichier résultat
python5


Script entier disponible ici
Fichier résultat contenant le code source nettoyé : ici
Fichier résultat contenant les statistiques : ici