(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { # Récupération des contenus textuels my $titre=$1; my $description=$2; # Récupération de la date $file=~/^(\d{4})\/(\d{2})\/(\d{2})/; my $dateFilRSS = $1."-".$2."-".$3; # Pour ne pas récupérer plusieurs fois la même information if (!(exists $dico_titres{$titre})) { $numberItem++; $dico_titres{$titre}=$description ; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats en sorties print $outputTXT "$titre\n"; print $outputTXT "$description\n"; print $outputTXT "--------------------\n"; print $outputXML "<item numero=\"$numberItem\" date=\"$dateFilRSS\">\n"; print $outputXML "<titre>$titre</titre>\n"; print $outputXML "<description>$description</description>\n"; print $outputXML "</item>\n"; } } } } } } #---------------------------------------------- # PROCEDURE : Pour nettoyer des chaînes de caractères correspondant aux titres et aux descriptions sub nettoyage { # Récupération des arguments passés à la procédure my $titre = $_[0]; my $description = $_[1]; # Nettoyage des titres $titre=~s/^<!\[CDATA\[//; $titre=~s/\]\]>$//; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/\?\./\?/g; # Nettoyage des descriptions $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/ //g; $description=~s/$/\./g; $description=~s/\.+$/\./g; $description=~s/\?\./\?/g; return $titre, $description; }

#!/usr/bin/perl <:encoding(utf8)", "./Resultats/Sorties_BAO1/sortie-slurp_$rubrique.txt"; open my $outputXML, ">:encoding(utf8)", "./Resultats/Sorties_BAO1/sortiexml-slurp_$rubrique.xml"; # Préparation du fichier en sortie XML print $outputXML "\n"; print $outputXML "\n"; # Initialisation de variables my %dico_titres=(); my $numberItem=0; my $nbFile=0; #---------------------------------------- # PARCOURS RECURSIF DE L'ARBORESCENCE &parcoursarborescencefichiers($repertoire); # Appel de la procédure de parcours de l'arborencence #---------------------------------------- # FERMETURE DES FICHIERS EN SORTIE print $outputXML "\n"; close $outputXML; close $outputTXT; #---------------------------------------- print "Nombre d'items distincts : $numberItem \n"; exit; #*********************************************************** #******************* SOUS-PROGRAMMES *********************** #----------------------------------------------------------- # PROCEDURE : Pour parcourir l'arborescence des fichiers sub parcoursarborescencefichiers { # Récupération de l'argument passé à la procédure my $path = shift(@_); # Traitement du répertoire donné en argument : Ouverture + Lecture + Fermeture opendir(my $DIRhandle, $path) or die "can't open $path: $!\n"; my @files = readdir($DIRhandle); closedir($DIRhandle); # Pour chaque élément (répertoire ou fichier) dans le répertoire "racine" foreach my $file (@files) { # Ne pas traiter les répertoires . (répertoire courant) et .. (répertoire parent) next if $file =~ /^\.\.?$/; # Reconstruire le chemin de l'élément par rapport à ma position actuelle $file = $path."/".$file; # Test de la nature de l'élément : Répertoire if (-d $file) { &parcoursarborescencefichiers($file); # Appel à nouveau la procédure de parcours de l'arborencence } # Test de la nature de l'élément : Fichier if (-f $file) { # Traitement du fichier XML correspondant à la rubrique recherchée if ($file =~/$rubrique.+xml$/) { print $nbFile++, " Traitement de : ", $file, "\n"; # Ouverture du fil RSS + Lecture globale + Fermeture open my $filRSS, "<:encoding(utf8)", $file; $/=undef; # ou bien $\=""; my $textelu=<$filRSS>; close $filRSS; # Extraction du contenu textuel des titres et des descriptions while ($textelu=~/.*?(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { # Récupération des contenus textuels my $titre=$1; my $description=$2; # Récupération de la date $file=~/^(\d{4})\/(\d{2})\/(\d{2})/; my $dateFilRSS = $1."-".$2."-".$3; # Pour ne pas récupérer plusieurs fois la même information if (!(exists $dico_titres{$titre})) { $numberItem++; $dico_titres{$titre}=$description ; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats en sorties print $outputTXT "$titre\n"; print $outputTXT "$description\n"; print $outputTXT "--------------------\n"; print $outputXML "<item numero=\"$numberItem\" date=\"$dateFilRSS\">\n"; print $outputXML "<titre>$titre</titre>\n"; print $outputXML "<description>$description</description>\n"; print $outputXML "</item>\n"; } } } } } } #---------------------------------------------- # PROCEDURE : Pour nettoyer des chaînes de caractères correspondant aux titres et aux descriptions sub nettoyage { # Récupération des arguments passés à la procédure my $titre = $_[0]; my $description = $_[1]; # Nettoyage des titres $titre=~s/^<!\[CDATA\[//; $titre=~s/\]\]>$//; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/\?\./\?/g; # Nettoyage des descriptions $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/ //g; $description=~s/$/\./g; $description=~s/\.+$/\./g; $description=~s/\?\./\?/g; return $titre, $description; }