Accueil Boîte à outils 1 Boîte à outils 2 Boîte à outils 3 Boîte à outils 4

Boîte à outils 1

Présentation

Le corpus de travail comporte des couples de fichiers aux formats XML et TXT.

L'entrée de la BàO 1 est constituée par l'ensemble des fichiers XML contenus dans l'arborescence de fils.
Ces fichiers XML sont des fils RSS en provenance du site du journal Le Monde. Ils résultent d'un archivage réalisé automatiquement à heure fixe et contiennent les titres et les résumés des articles publiés.
Notre corpus est constitué des fils RSS de novembre et décembre 2006.



Filtrage

Il s'agit de filtrer, dans les fichiers XML de l'arborescence, les contenus textuels des balises <title></title> et <description></description> de chaque item (article), à l'aide d'un script Perl; on a par ailleurs choisi de restructurer la sortie au format XML.

La petite ambiguité tient au fait que les éléments <channel></channel> et <item></item> contiennent tous deux des balises <title></title> et <description></description> : comment la résoudre?

Voici deux solutions possibles pour traiter ces balises et leurs contenus :
- la solution de Marianna : utiliser une balise différente pour les titres et descriptions respectifs des channels et des items! le script et la sortie XML;
- la solution de Marguerite : utiliser des compteurs pour distinguer titres et descriptions respectifs des channels et des items ! le script et la sortie XML.

Nettoyage

Pour éliminer les petits déchets de l'étape de filtrage, un petit nettoyage est utile! Il suffit d'assainir les contenus textuels en remplaçant les entités XML qui font désordre. (le programme de Marianna le contient déjà en procédure; nous le présentons aussi isolément).

Ce petit plus sera systématiquement mis en procédure au programme de filtrage dès la Boîte à outils suivante.