PROJET ENCADRÉ


Accueil Mots BAO I BAO II BAO III

BAO N° I

Comme metionné dans la page d'accueil, l'objectif du BAO n°1 est d'extraire les couples titre description des fils RSS du journal Le Monde qui constituent notre corpus.

C'est quoi un fil RSS

Les flux RSS (pour Really Simple Syndication, en français “Syndication réellement simple“) sont des fichiers dont l’objectif est de stocker une liste de contenus ou de pages web. Cette liste peut contenir différentes métadonnées associées aux contenus, comme par exemple le titre ou la description d’une page web.

Les flux sont fréquemment utilisés dans les blogs pour permettre aux utilisateurs de recevoir en temps réel la liste des derniers contenus publiés.

C'est dans cette optique définitionnelle que notre script a été réaliser afin d'extraire du contenu textuel dans les balises 'title' et 'description' de l'ensemble des rubiques et d'écrire en sortie deux fichiers aux formats texte brut et XML.

Le scrip se lance de la manière suivante dans un terminal : perl bao1_xmlrss.pl 2020 code catégorie

Exemple : perl bao1_rss.pl 2020 3208

Dans le cadre de cette partie, nous n'avons travaillé que dans les rubriques à la une (3208), l'internation (3210) et livres (3260)

Résultats :
SCRIPT 3208.TXT 3208.XML 3210.TXT 3210.XML 3260.TXT 3260.XML