Accueil Boîte à outil 1 Boîte à outil 2 Boîte à outil 3 Boîte à outil 4

Boîte à outil 1

L'objectif: extraire automatiquement à travers une arborescence
des fichiers textes et les traiter

Notre base de travail est constituée de fils RSS du MONDE. Ces fils RSS sont des fichiers .xml rangés dans un répertoire. En langage Perl, on réalise un script qui va analyser ce répertoire à travers toute une arborescence de dossiers et de fichiers. Concrètement, ce programme permet de retouver et d'ouvrir tous les fichiers .xml du répertoire. Enfin, de ces fichiers on extrait le contenu compris entre des balises précises (les balises DESCRIPTION) et on remplace les caractères mal codés afin d'obtenir à la sortie un texte propre, balisé et au format.xml. Enfin, avec une feuille de style de filtrage on obtient un résultat plus facilement lisible.