Explication : Qu'est ce qu'on veut faire ?

La boîte à outil 1 a pour but d’extraire des données textuelles. Pour être plus précis, nous cherchons à parcourir toute l’arborescence de fichiers et à recueillir les données textuelles correspondant aux titres et aux descriptions de chaque articles sur une partie des fils RSS.

Les fils RSS concernés sont seulement ceux qui correspondent aux rubriques suivantes :

Remarque : Les parties surlignées correspondent aux chaînes de caractères tapées en ligne de commande pour désigner chaque rubrique.

Méthodes : Comment allons-nous procéder ?

Nous avons réalisé cette BAO sous deux versions :

  • une version utilisant les expressions régulières que vous pouvez retrouver ici
  • une version utilisant la bibliothèque XML::RSS (adaptée au traitement de fichiers XML RSS) que vous pouvez retrouver ici

Nous avons aussi décidé d’ajouter des attributs dans les balises correspondant au numéro de l’item traité (c’est-à-dire son compteur) et à la date du fil RSS correspondant, pour garder une certaine trace des fils RSS traités. Par ailleurs, nous ne traitons que les items distincts, c’est-à-dire que nous ne voulons pas de doublons.

Nous exécutons l'une des commandes ci-dessous en nous positionnant sur le répertoire ProjetEncadré, qui contient toute notre arborescence de travail:
perl ./BAO1/BAO1_ParcoursArborescence_RegExp.pl 2020 n°_rubrique
ou
perl ./BAO1/BAO1_ParcoursArborescence_XMLRSS.pl 2020 n°_rubrique

Les deux versions de la BAO donnent les mêmes résultats.

Résultats : Qu'est ce qu'on a obtenu ?

Nous remarquons que la version du programme utilisant les expressions régulières va beaucoup plus vite que celle avec XML::RSS.

Deux fichiers résultent de l’exécution de cette BAO:

  • un fichier texte brut, contenant le titres et la description de chaque article
  • un fichier XML, contenant également les titres et les descriptions
Lien vers le script BAO1 RegExp.
Lien vers le script BAO1 XML::RSS.
Résultats obtenus avec la BAO1 (les versions donnent le même résultat).