Boîte à outils 1: Filtrage d'un texte
  • Objectif:

Dans cette partie nous automatisons le parcours de l'arborescence de fils RSS dans le but d'en extraire les zones textuelles qui nous intéressent et de les structurer sous la forme d'un document XML qui constituera notre corpus de travail. Cette boîte à outils consistera à filtrer le contenu textuel des balises "Description" et "Titre" du corpus constitué de fils RSS.

  • Réalisation

Nous utilisons un petit script Perl en nous inspirant de celui fourni par les enseignants: filtreur.pl. Le script modifié prend en entrée le fichier XML, sélectionne les données textuelles contenues entre les balises recherchées.

Des problèmes d'encodage de carctères ont été constatés. Pour y remédier nous avons inséré dans notre script les lignes suivantes:



Les caractères qui s'affichent mal sont remplacés par leur équivalents bien codés.

Le script final est consultable ici.


précédent<<suivant>>