BAO1 permet d’extraire les contenus textuels de tous les fils.

Nous avons réalisé deux scripts Perl pour extraire les contenus textuels de tous les fils.

Le premier script qui prend en argument la racine de l'arborescence et le numéro de la rubrique que nous voulons parcourir. Ici, nous avons choisi les rubriques 3208 (une), et 3260 (livres). Ce script utilise les expressions régulières pour sélectionner les fichiers .xml correspondant à la rubrique souhaitée, puis pour extraire de ces fichiers le titre et la description de chaque article et cela pour tous les jours de tous les mois de l'année 2020. Dans l'écriture du script, nous avons défini deux sous-programmes : "parcoursarborescencefichiers", qui utilise les regexp pour parcourir les répertoires et l'intérieur des fichiers et "nettoyage", qui nettoie le texte pour qu'il en ressorte totalement brut. Ce programme a pour sortie deux fichiers : un au format .txt et un au format .xml

Le deuxième script qui prend en argument le fichier .xml que nous voulons extraire, par exemple, ici 0,2-3208,1-0,0.xml et 0,2-3260,1-0,0.xml. Ce programme a pour sortie deux fichiers : un au format .txt et un au format .xml

BAO1_Script_Methode1.pl

BAO1_Script_Methode2.pl

Résultat TXT pour la rubrique 3208 ( une ) :

BAO1_3208.txt

Résultat XML pour la rubrique 3208 ( une ) :

BAO1_3208.xml

Résultat TXT pour la rubrique 3260 ( livres ) :

BAO1_3260.txt

Résultat XML pour la rubrique 3260 ( livres ) :

BAO1_3260.xml

Résultat TXT ( XML::RSS ) pour la rubrique 3208 ( une ) :

BAO1_XML_RSS_titre-description.txt

Résultat XML ( XML::RSS ) pour la rubrique 3208 ( une ) :

BAO1_XML_RSS_titre-description.xml

BAO1 solution python.


Extraction des titres et des descriptions avec python

titre-description.py


Calcul fréquence avec python

fréquence.py