BAO 1 - Extraction de l'information

L'objectif de cette BAO 1 est de créer un programme dans le langage Perl, qui permet de parcourir l'arborescenc des flux RSS du Monde, afin de récupérer tout les contenus textuels par rubrique. Nous avons utilisé deux méthodes différentes : une première avec regexp, et une seconde avec la bibliothèque XML::RSS.


Méthode 1 : Regexp


Programme Perl

La méthode regexp considère le texte comme un "sac de caractères" dans lequel nous essayerons de repérer certaines régularités via des expressions régulières.



Rubrique - Europe / 3214, fichier xml
Rubrique - Livres / 3260, fichier xml
Rubrique - Cinéma / 3276, fichier xml
Rubrique - Technologies / 651865, fichier xml


Rubrique - Europe / 3214, fichier txt
Rubrique - Livres / 3260, fichier txt
Rubrique - Cinéma / 3276, fichier txt
Rubrique - Technologies / 651865, fichier txt

Méthode 2 : XML:RSS


La seconde méthode prend en considération la structuration logique du texte (sous la forme d'un arbre de la "Famille RSS" et sa modélisation dans un programme pour n'avoir qu'à "cueillir" les textes visés.


Programme Perl

Rubrique - Europe / 3214, fichier xml
Rubrique - Livres / 3260, fichier xml
Rubrique - Cinéma / 3276, fichier xml
Rubrique - Technologies / 651865, fichier xml


Rubrique - Europe / 3214, fichier txt
Rubrique - Livres / 3260, fichier txt
Rubrique - Cinéma / 3276, fichier txt
Rubrique - Technologies / 651865, fichier txt