Comme metionné dans la page d'accueil, l'objectif du BAO n°1 est d'extraire les couples titre description des fils RSS du journal Le Monde qui constituent notre corpus.
Les flux RSS (pour Really Simple Syndication, en français “Syndication réellement simple“) sont des fichiers dont l’objectif est de stocker une liste de contenus ou de pages web. Cette liste peut contenir différentes métadonnées associées aux contenus, comme par exemple le titre ou la description d’une page web.
Les flux sont fréquemment utilisés dans les blogs pour permettre aux utilisateurs de recevoir en temps réel la liste des derniers contenus publiés.
C'est dans cette optique définitionnelle que notre script a été réaliser afin d'extraire du contenu textuel dans les balises 'title' et 'description' de l'ensemble des rubiques et d'écrire en sortie deux fichiers aux formats texte brut et XML.
Le scrip se lance de la manière suivante dans un terminal : perl bao1_xmlrss.pl 2020 code catégorie
Exemple : perl bao1_rss.pl 2020 3208
Dans le cadre de cette partie, nous n'avons travaillé que dans les rubriques à la une (3208), l'internation (3210) et livres (3260)