Présentation

Boîte à outil 1

Boîte à outil 2

Boîte à outil 3

Boîte à outil 4

Boîte à outil 1

Objectif :

La boîte à outil 1 consiste de construire deux programmes avec perl pour le filtrage de contenue de balise et le nettoyage d'un ensemble des fichiers xml contenus dans les arborescence de fils RSS. On construit ces programmes independament puis on les inserè un squelette du programme mise à notre disposition par nos enseignants qui permettra de lancer un seule programme pour le traitement.

La structure de l'ensemble de fichiers xml :

format de fichiers

Filtrage

Il s'agit de filtrer, dans les fichiers XML de l'arborescence, les contenus textuels des balises <title></title> et <description></description> de chaque item (article), à l'aide d'un script Perl. Le programme perl construit permet d'ouvrir chaque fichier xml et quand il les parcours et rencontre les balises en question il extrait leurs contenus.

Le script

Nettoyage

Le programme de nettoyage permet de debarasser des elements qui peuvent causer des problèmes dans la traitemet des documents dans les etapes qui suivents. Il est aussi l'étape qui permet la rectification des problèmes lié à l'encodage de caractère.

Le script