BAO1 Extraction du texte
L'objectif de la première boîte à outils était donc l'extraction des contenus textuels des fils RSS de l'arborescence, soit les contenus des balises title et description. Il convenait également de choisir deux rubriques (par personne) pour pouvoir plus tard effectuer les extractions de patrons sur celles-ci.
Vous trouverez donc ici les scripts permettant cette extraction.
Ci-dessous les scripts perl permettant l'extraction des contenus textuels des balises title et description.
Méthode XML-RSS
Méthode Regex
Remarque: la méthode regexp est deux fois plus efficaces que la méthode XML-RSS
Ces scripts permettent la génération de deux sortie : une sortie TXT et une sortie XML. Nous avons extrait chaqun deux rubrique, vous trouverez les résultats ci-dessous.
Tristan: rubrique 3208 et 3210
Sortie XML-RSS rubrique 3208 (txt)
Sortie XML-RSS rubrique 3208 (xml)
Sortie XML-RSS rubrique 3210 (txt)
Sortie XML-RSS rubrique 3210 (xml)
Sortie regex rubrique 3208 (txt)
Sortie regex rubrique 3208 (xml)
Sortie regex rubrique 3210 (txt)
Sortie regex rubrique 3210 (xml)
Zhuang: rubrique 3214 et 3224
Sortie XML-RSS rubrique 3214 (txt)
Sortie XML-RSS rubrique 3214 (xml)
Sortie XML-RSS rubrique 3224 (txt)
Sortie XML-RSS rubrique 3224 (xml)
Sortie regex rubrique 3214 (txt)
Sortie regex rubrique 3214 (xml)
Sortie regex rubrique 3224 (txt)
Sortie regex rubrique 3224 (xml)
Qishen: rubrique 3232 et 3234
Sortie XML-RSS rubrique 3232 (txt)
Sortie XML-RSS rubrique 3232 (xml)
Sortie XML-RSS rubrique 3234 (txt)
Sortie XML-RSS rubrique 3234 (xml)
Sortie regex rubrique 3232 (txt)
Sortie regex rubrique 3232 (xml)
Sortie regex rubrique 3234 (txt)
Sortie regex rubrique 3234 (xml)