BaO 1

Objetif BàO1 :

Cette boîte à outils sert à extraire les contenues textuels des "titre" et "description" de chaque fichier d'un corpus de fils RSS du journal Le Monde de l'année 2020, à les concaténer pour ensuite les mettre dans un seul fichier correspondant à chaque rubrique. Le programme donne en sortie deux fichiers de formats différents: TXT et XML. TXT contient les texte brut de chaque extraction, et XML est le document semi-structuré établi en ajoutant les balises autour d'extraction.

Les fils RSS sont regroupés dans un répertoire organisé de la manière suivante : année/mois/jour/heure/fils RSS. Chaque fil RSS reprend une structure précise permettant de structurer l'information.



L'idée de cette boîte est que le programme parcourt le répertoire fils RSS, en traversant l'arborescence de manière récursive, puis trouve le fichier qui correspond à la rubrique intéressante, et ensuite récupère les informations qui nous intéressent.Deux méthodes différentes ont été utilisées pour réaliser cette boîte à outils:

  • la première utilisera Perl et les RegExp
  • le seconde utilisera Perl et la bibliothèque XML::RSS

BaO 1 : Perl

Voici le script en Perl

Script Perl




BaO 1 : XML::RSS

Voici le script en XML::RSS

Nous l'avons laissé même si il ne fonctionne en l'état pas encore car l'erreur qui s'affiche doit être une erreur simple.

Script XML::RSS




Résultats :

Rubrique Sortie en Txt Sortie en XML
3208 sortie-slurp_3208 sortie xml 3208
3224 sortie-slurp_3224 sortie xml 3224
3246 sortie-slurp_3246 sortie xml 3246
3476 sortie-slurp_3476 sortie xml 3476