BAO 1 - Extraction de l'information
L'objectif de cette BAO 1 est de créer un programme dans le langage Perl, qui permet de parcourir
l'arborescenc des flux RSS du Monde, afin de récupérer tout les contenus textuels par rubrique. Nous avons utilisé deux méthodes
différentes : une première avec regexp, et une seconde avec la bibliothèque XML::RSS.
Méthode 1 : Regexp
Programme Perl
La méthode regexp considère le texte comme un "sac de caractères" dans lequel nous essayerons de repérer
certaines régularités via des expressions régulières.
Rubrique - Europe / 3214, fichier xml
Rubrique - Livres / 3260, fichier xml
Rubrique - Cinéma / 3276, fichier xml
Rubrique - Technologies / 651865, fichier xml
Rubrique - Europe / 3214, fichier txt
Rubrique - Livres / 3260, fichier txt
Rubrique - Cinéma / 3276, fichier txt
Rubrique - Technologies / 651865, fichier txt
Méthode 2 : XML:RSS
La seconde méthode prend en considération la structuration logique du texte (sous la forme d'un arbre de
la "Famille RSS" et sa modélisation dans un programme pour n'avoir qu'à "cueillir" les textes visés.
Programme Perl
Rubrique - Europe / 3214, fichier xml
Rubrique - Livres / 3260, fichier xml
Rubrique - Cinéma / 3276, fichier xml
Rubrique - Technologies / 651865, fichier xml
Rubrique - Europe / 3214, fichier txt
Rubrique - Livres / 3260, fichier txt
Rubrique - Cinéma / 3276, fichier txt
Rubrique - Technologies / 651865, fichier txt