PE2

BAO1 permet d’extraire les contenus textuels de tous les fils.

Nous avons réalisé deux scripts Perl pour extraire les contenus textuels de tous les fils.

Le premier script qui prend en argument la racine de l'arborescence et le numéro de la rubrique que nous voulons parcourir. Ici, nous avons choisi les rubriques 3208 (une), et 3260 (livres). Ce script utilise les expressions régulières pour sélectionner les fichiers .xml correspondant à la rubrique souhaitée, puis pour extraire de ces fichiers le titre et la description de chaque article et cela pour tous les jours de tous les mois de l'année 2020. Dans l'écriture du script, nous avons défini deux sous-programmes : "parcoursarborescencefichiers", qui utilise les regexp pour parcourir les répertoires et l'intérieur des fichiers et "nettoyage", qui nettoie le texte pour qu'il en ressorte totalement brut. Ce programme a pour sortie deux fichiers : un au format .txt et un au format .xml

Le deuxième script qui prend en argument le fichier .xml que nous voulons extraire, par exemple, ici 0,2-3208,1-0,0.xml et 0,2-3260,1-0,0.xml. Ce programme a pour sortie deux fichiers : un au format .txt et un au format .xml

BAO1

BAO1 permet d’extraire les contenus textuels de tous les fils.

BAO1_Script_Methode1.pl

BAO1_Script_Methode2.pl

BAO1_3208.txt

BAO1_3208.xml

BAO1_3260.txt

BAO1_3260.xml

BAO1_XML_RSS_titre-description.txt

BAO1_XML_RSS_titre-description.xml

BAO1 solution python.

titre-description.py

fréquence.py