extraction de texte

Cette première étape se présente en 2 parties: l'extraction et le nettoyage des fils RSS.

1/ Extraction

Le programme écrit en PERL a pour particularité de parcourir l'arborescence du répertoire des fils du Monde en ne traitant que des fichiers, les répertoires successifs (année, mois, jour) étant passés en revue sans traitement.
Seuls les fichiers XML, reconnus par leur extension, sont retenus. On ne s'interessera ici qu'aux contenus des balises <description>. 
Les rubriques sont reconnues par leur code:
- A la une:    0,2-3208,1-0,0 
- Société:     0,2-3224,1-0,0

2/ Nettoyage 

Les textes extraits présentent quelques problèmes de codage dus au entités HMTL (exemple: &amp;eacute). Ces dernières sont remplacés par les caractères auquels elles correspondent ('é').
Plusieurs zones textuelles, bien qu'elles soient comprises entre deux balises <description>, ne nous intéressent pas (exemple: Toute l'actualité au moment de la connexion). Ces zones ne seront pas traitées.
On remarque aussi pour la rubrique Société, que d'un jour à l'autre, le contenu des balises <description> ne change pas. On décide donc de ne pas faire apparaître ces doublons.

Scripts: 

- A la une
- Société

Résultats:


Les parties textuelles traitées sont concataténées dans un fichier texte pour chaque rubrique:

- A la une
- Société