BàO 1

Cette boîte consiste à extraire et nettoyer les contenus textuels de balise titre et description de tous les fils RSS. Nous allons voir deux scripts écrits différemment - avec l'expression régulière ou avec XML::RSS - alors qu'ils produisent exactement le même résultat!

-Entrées : répertoire à parcourir et rubrique choisie
Dans ce site, nous allons voir 4 rubriques choisis : 3208(A la Une), 3210(International), 3214(Europe) et 3224(France).
-Exemple d'utilisation : perl bao1_hayoung_seo.pl répertoire-à-parcourir rubrique
-Sorties : un fichier txt + un fichier XML

1. Méthode Expression régulière

2. Méthode XML::RSS

Grâce au sous-programme nettoyage, nous pouvons enlever les entités présentes puis les remplacer. En effet, ces entités posent le problème pour la boîte à outils 2 et 3 donc il vaut mieux de les nettoyer dans cette boîte.


Résultat

Vous trouverez ici le résultat avec Script version regex car les deux scripts génèrent exactement le même résultat.
Fil RSS Rubrique Sortie Texte Sortie XML
3208 A la Une 3208 TXT 3208 XML
3210 International 3210 TXT 3210 XML
3214 Europe 3214 TXT 3214 XML
3224 France 3224 TXT 3224 XML