Projet Encadré.

BàO 1: "Extraction du texte"

Nous allons parcourir toute l'arborescence et extraire les contenus textuels de tous les fils. Nous allons commencer par extraire tous les titres et descriptions d’un fils RSS.

Script en PERL : BAO1.pl

Commande afin de lancer le script : perl BAO1.pl ../../2021 3246. Nous allons avoir en sortie deux fichiers : un fichier .xml qui correspond aux titres et descriptions en format XML, un autre qui est en .txt qui nous sort la même chose en format texte.

On obtient le résultat suivant:

Les résultats de l'exécution consiste en deux fichiers, au format texte et au format XML qui contiennent l'extraction des titres et des description d'articles pour la rubrique indiquée à trouver ci-dessous.

CULTURE -- 3246 -- TXT | | CULTURE -- 3246 -- XML

Script en Python : BAO1.py

Commande afin de lancer le script : python BAO1.py ../../2021 3246. Nous allons avoir en sortie deux fichiers : un fichier .xml qui correspond aux titres et descriptions en format XML, un autre qui est en .txt qui nous sort la même chose en format texte.

On obtient le résultat suivant:

Les résultats de l'exécution consiste en deux fichiers, au format texte et au format XML qui contiennent l'extraction des titres et des description d'articles pour la rubrique indiquée à trouver ci-dessous.

CULTURE -- 3246 -- TXT | | CULTURE -- 3246 -- XML






  • © Mohamad Quzairie TALIB. All rights reserved