BàO 1
Cette boîte consiste à extraire et nettoyer les contenus textuels de balise titre et description de tous les fils RSS. Nous allons voir deux scripts écrits différemment - avec l'expression régulière ou avec XML::RSS - alors qu'ils produisent exactement le même résultat!
-Entrées : répertoire à parcourir et rubrique choisie
Dans ce site, nous allons voir 4 rubriques choisis : 3208(A la Une), 3210(International), 3214(Europe) et 3224(France).
-Exemple d'utilisation : perl bao1_hayoung_seo.pl répertoire-à-parcourir rubrique
-Sorties : un fichier txt + un fichier XML
1. Méthode Expression régulière
2. Méthode XML::RSS
Grâce au sous-programme nettoyage
, nous pouvons enlever les entités présentes puis les remplacer. En effet, ces entités posent le problème pour la boîte à outils 2 et 3 donc il vaut mieux de les nettoyer dans cette boîte.
Résultat
Vous trouverez ici le résultat avec Script version regex car les deux scripts génèrent exactement le même résultat.
Fil RSS | Rubrique | Sortie Texte | Sortie XML |
---|---|---|---|
3208 | A la Une | 3208 TXT | 3208 XML |
3210 | International | 3210 TXT | 3210 XML |
3214 | Europe | 3214 TXT | 3214 XML |
3224 | France | 3224 TXT | 3224 XML |