Extraction de la surface et la profondeur des fils RSS sur le corpus 2015
Nous sommes ici à la première étape de notre projet qui consiste à écrire 2 scripts : 1 en Purperl et l'autre en utilisant la bilbliothèque XML::RSS. Ces deux scripts devront dans un premier temps parcourir l'aborescence de fils rss 2015 pour ressortir la surface (titre et description); Et dans un deuxième temps la profondeur qui est le contenu. Le principe de la procédure de parcours est que étant donné des fichiers rangés dans plusieurs dossiers classés par mois si le programme tombe sur un répertoire il continue le parcours de l'arborescence si c'est un fichier il le traite et tout ça de manière récursive jusqu'à ce qu'il est parcouru toute l'arborescence.
1- PURPERL
Dans un premier temps, nous allons écrire un script qui parcours notre aborescence 2015 pour nous donner la surface. Après nous le modifierons pour ressortir la profondeur.Voici notre script commenté.
En sortie , nous obtenons deux fichiers : un au format.txt et l'autre au format.xml
Nous allons donc modifié le SCRIPT 1 pour extraire la profondeur. Nous rajoutons donc ce petit bout ce code dans notre script principal.
résultat obtenu
Voici le script en entier en Purpel