Accueil


Boîte à outils 1


Boîte à outils 2


Boîte à outils 3


Boîte à outils 4


Boîte à outils et le Trameur









© 2008 | Tatiana   MAKOUSKAYA et
 Lionel SHEN (INaLCO)



Boîte à outils

Boîte à outils 1
Le corpus de travail comporte des couples de fichiers aux formats XML et TXT.

L'entrée de la BàO 1 est constituée par l'ensemble des fichiers XML contenus dans l'arborescence de fils.
Ces fichiers XML sont des fils RSS en provenance du site du journal Le Monde,dit BàO 0. Ils résultent d'un archivage réalisé automatiquement à heure fixe et contiennent les titres et les résumés des articles publiés.

Objectif : extraire d'une arborescence de fils RSS les contenus textuels des balises <title></title> et <description></description> de chaque article, à l'aide d'un script Perl; on a par ailleurs choisi de restructurer la sortie au format XML.









Filtrage  et Nettoyage


Le script parcours-arborescence-fichiers.pl : programme permettant de parcourir une arborescence.
Pour éliminer les petits déchets de l'étape de filtrage,il faut qu'on fasse un nettoyage!

le script de BàO 1