(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { # l'option s dans la recherche permet de tenir compte des \n my $titre=$1; my $description=$2; $numberItem++; # on évite d'extraire des doublons titre/description if(!(exists $dico_des_titres{titres})) { $dico_des_titres{titire}=$description; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats en sorties print $output $titre, "\n"; print $output $description, "\n"; print $output "--------------------\n"; print $outxml "<item>\n"; print $outxml "<titre>$titre</titre>\n"; print $outxml "<description>$description</description>\n"; print $outxml "</item>\n"; } } } } } } #------------------------------------------------ sub nettoyage { # quand on lance une procédure # perl range les arguments de la procédure dans une liste spéciale qui s'appelle @_ #my $titre=shift(@_); autre solution en vidant la liste des arguments du programmes... #my $description=shift(@_); # ce sous-programme de nettoyage permet surtout d'obtenir des résultats propres sans les balises xml mal formées my $titre = $_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//g; $titre=~s/\]\]>$//g; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/&//g; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; # l'ajout du point en fin de chaîne $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/&//g; return $titre,$description; }

#!/usr/bin/perl <:encoding(UTF-8)","../RESULTATS/sortie-$rubrique.txt" or die ; open my $outxml, ">:encoding(UTF-8)","../RESULTATS/sortie-$rubrique.xml" or die ; # écrire l'entête dans le fichier de sortie xml print $outxml "\n"; print $outxml "\n"; my %dico_des_titres=(); my $numberItem=0; my $nbFile=0; my $time = Timer::Simple->new(); #----------------------------------------------------------- #recurse! &parcoursarborescencefichiers($rep); print $outxml "\n"; close $output; close $outxml; print "Nb item : $numberItem \n"; #----------------------------------------------------------- print "temp d'exécution: $time\n"; exit; #----------------------------------------------------------- # Crée une fonction pour parcours l'arborescence du fichier 2020 sub parcoursarborescencefichiers { my $path = shift(@_); # ouvrir un répertoire, opendir prend en argument le nom du répertoire et le chemin opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { # on ignore les répertoire dont le nom est . ou .. next if $file =~ /^\.\.?$/; # on concatène le nom du répertoire courant à chaque fichier qui le compose pour voir s'il s'agit d'un fichier ou d'un répertoire $file = $path."/".$file; if (-d $file) { #print "on entre dans $file \n"; &parcoursarborescencefichiers($file); #recurse! #print "on sort de $file \n"; } # s'il s'agit d'un fichier, on vérifie s'il est le ficheir dont on a besoin if (-f $file) { #on traite uniquement les fichiers xml if ($file =~/$rubrique.+xml$/) { print $nbFile++," Traitement de : ",$file,"\n"; open my $input, "<:encoding(UTF-8)", "$file"; # lecture global du ficher $/=undef; my $textelu=<$input>; close $input; # extraire les titres et les descriptions avec le regex suivant while ($textelu=~/.*?(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { # l'option s dans la recherche permet de tenir compte des \n my $titre=$1; my $description=$2; $numberItem++; # on évite d'extraire des doublons titre/description if(!(exists $dico_des_titres{titres})) { $dico_des_titres{titire}=$description; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats en sorties print $output $titre, "\n"; print $output $description, "\n"; print $output "--------------------\n"; print $outxml "<item>\n"; print $outxml "<titre>$titre</titre>\n"; print $outxml "<description>$description</description>\n"; print $outxml "</item>\n"; } } } } } } #------------------------------------------------ sub nettoyage { # quand on lance une procédure # perl range les arguments de la procédure dans une liste spéciale qui s'appelle @_ #my $titre=shift(@_); autre solution en vidant la liste des arguments du programmes... #my $description=shift(@_); # ce sous-programme de nettoyage permet surtout d'obtenir des résultats propres sans les balises xml mal formées my $titre = $_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//g; $titre=~s/\]\]>$//g; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/&//g; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; # l'ajout du point en fin de chaîne $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/&//g; return $titre,$description; }