BàO 1
Cette boîte consiste à extraire et nettoyer les contenus textuels de balise titre et description de tous les fils RSS. Nous allons voir deux scripts écrits différemment - avec l'expression régulière ou avec XML::RSS - alors qu'ils produisent exactement le même résultat!
-Entrées : répertoire à parcourir et rubrique choisie
Dans ce site, nous allons voir 4 rubriques choisis : 3208(A la Une), 3210(International), 3214(Europe) et 3224(France).
-Exemple d'utilisation : perl bao1_hayoung_seo.pl répertoire-à-parcourir rubrique
-Sorties : un fichier txt + un fichier XML
1. Méthode Expression régulière
2. Méthode XML::RSS
Grâce au sous-programme nettoyage, nous pouvons enlever les entités présentes puis les remplacer. En effet, ces entités posent le problème pour la boîte à outils 2 et 3 donc il vaut mieux de les nettoyer dans cette boîte.
Résultat
Vous trouverez ici le résultat avec Script version regex car les deux scripts génèrent exactement le même résultat.
| Fil RSS | Rubrique | Sortie Texte | Sortie XML |
|---|---|---|---|
| 3208 | A la Une | 3208 TXT | 3208 XML |
| 3210 | International | 3210 TXT | 3210 XML |
| 3214 | Europe | 3214 TXT | 3214 XML |
| 3224 | France | 3224 TXT | 3224 XML |
