accueil | bào1 | bào2 | bào3 | bào4 | bào + le_trameur

Boîte à outils n°1

Objectif : extraire d'une arborescence de fils RSS les contenus textuels des balises "titre" et "description".

Ressources

Réalisation

Les fils RSS nous ont été fournis dans deux formats différents : XML et texte (Lexico3). Comme seuls les fichiers XML nous intéresse, j'ai tout d'abord supprimé les fichiers inutiles. Une fois dans le répertoire <Jan> :

$ rm ./*/*/*.txt

Pour récupérer le contenu des balises "title" et "description" j'ai préferé une évaluation XPath :

//item/description/preceding-sibling::title[1] | //item/title/following-sibling::description[1]

A noter qu'avant d'écrire mon programme j'ai pu tester cette évaluation avec des outils XML comme Cooktop ou XML Copy Editor.

Enfin, au fil du projet, j'ai apporté diverses modifications au programme afin d'améliorer la qualité du résultat :

Fichiers : bao1.pl

Résultat

Pour accéder à l'ensemble des fichiers produits : cliquer ici.

Liens

Cooktop : http://www.xmlcooktop.com/
XML Copy Editor : http://xml-copy-editor.sourceforge.net/

retour en haut

©2008 Pierre Marchal (INaLCO)