Projet BAO

BAO1 Extraction du texte

L'objectif de la première boîte à outils était donc l'extraction des contenus textuels des fils RSS de l'arborescence, soit les contenus des balises title et description. Il convenait également de choisir deux rubriques (par personne) pour pouvoir plus tard effectuer les extractions de patrons sur celles-ci.

Vous trouverez donc ici les scripts permettant cette extraction.

Ci-dessous les scripts perl permettant l'extraction des contenus textuels des balises title et description.

Méthode XML-RSS

Rubriques	Nombre d'items	Temps d'exécution/s
3208	6695	8.936014
3210	7280	9.622029
3214	7260	9,096365
3224	7280	10,970838
3232	7260	10.602215
3234	7260	9.679651

Méthode Regex

Rubriques	Nombre d'items	Temps d'exécution/s
3208	6695	5.45586
3210	7280	4.913089
3214	7260	4,210335
3224	7280	4,26996
3232	7260	4.520114
3234	7260	4.734289

Remarque: la méthode regexp est deux fois plus efficaces que la méthode XML-RSS

Ces scripts permettent la génération de deux sortie : une sortie TXT et une sortie XML. Nous avons extrait chaqun deux rubrique, vous trouverez les résultats ci-dessous.

Tristan: rubrique 3208 et 3210

Sortie XML-RSS rubrique 3208 (txt)

Sortie XML-RSS rubrique 3208 (xml)

Sortie XML-RSS rubrique 3210 (txt)

Sortie XML-RSS rubrique 3210 (xml)

Sortie regex rubrique 3208 (txt)

Sortie regex rubrique 3208 (xml)

Sortie regex rubrique 3210 (txt)

Sortie regex rubrique 3210 (xml)

Zhuang: rubrique 3214 et 3224

Sortie XML-RSS rubrique 3214 (txt)

Sortie XML-RSS rubrique 3214 (xml)

Sortie XML-RSS rubrique 3224 (txt)

Sortie XML-RSS rubrique 3224 (xml)

Sortie regex rubrique 3214 (txt)

Sortie regex rubrique 3214 (xml)

Sortie regex rubrique 3224 (txt)

Sortie regex rubrique 3224 (xml)

Qishen: rubrique 3232 et 3234

Sortie XML-RSS rubrique 3232 (txt)

Sortie XML-RSS rubrique 3232 (xml)

Sortie XML-RSS rubrique 3234 (txt)

Sortie XML-RSS rubrique 3234 (xml)

Sortie regex rubrique 3232 (txt)

Sortie regex rubrique 3232 (xml)

Sortie regex rubrique 3234 (txt)

Sortie regex rubrique 3234 (xml)