(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { my $titre=$1; my $description=$2; if (!(exists $dico_des_titres{$titre})) { $dico_des_titres{$titre}=$description; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats dans les fichiers de sortie print OUT $titre,"\n"; print OUT $description,"\n"; print OUT "-----------------\n"; # Ecriture des résultats dans les fichiers de sortie XML print OUTXML "<item>\n"; print OUTXML "<titre>$titre</titre>\n"; print OUTXML "<description>$description</description>\n"; print OUTXML "</item>\n"; } } } } } } # -------------------------------------- # Procédure de nettoyage préliminaire des fichiers xml avant le traitement du contenu textuel sub nettoyage { my $titre =$_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//; $titre=~s/\]\]>$//; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/'/g; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; return $titre,$description; }

#!usr/bin/perl <:encoding(utf8)","BAO1_$rubrique.txt"); open(OUTXML,">:encoding(utf8)","BAO1_$rubrique.xml"); # Ecriture des balises XML d'en-tête print OUTXML "\n"; print OUTXML "\n"; my %dico_des_titres=(); # ---------------------------------------- # Appel de la fonction parcoursarborescencefichiers &parcoursarborescencefichiers($rep); #------------------------------------------ #Ecriture de la balise XML de fin print OUTXML "\n"; # Fermeture des fichiers close OUT; close OUTXML; exit; #------------------------------------------ # Définition de la fonction parcoursarborescencefichiers sub parcoursarborescencefichiers { my $path = shift(@_); opendir(DIR,$path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { next if $file =~/^\.\.?$/; # on ignore les rep . et .. $file = $path."/".$file; # le . sert a concatener les chaine de caractere if (-d $file) { # fonction de récursivité &parcoursarborescencefichiers($file); } if (-f $file) { #on traite uniquement les fichiers xml if ($file =~/$rubrique.+xml$/) { print $i++, " Traitement du fichier ",$file, "\n"; open(FIC,"<:encoding(utf-8)",$file); $/=undef; my$textelu=; close FIC; while ($textelu=~/.*?(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { my $titre=$1; my $description=$2; if (!(exists $dico_des_titres{$titre})) { $dico_des_titres{$titre}=$description; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats dans les fichiers de sortie print OUT $titre,"\n"; print OUT $description,"\n"; print OUT "-----------------\n"; # Ecriture des résultats dans les fichiers de sortie XML print OUTXML "<item>\n"; print OUTXML "<titre>$titre</titre>\n"; print OUTXML "<description>$description</description>\n"; print OUTXML "</item>\n"; } } } } } } # -------------------------------------- # Procédure de nettoyage préliminaire des fichiers xml avant le traitement du contenu textuel sub nettoyage { my $titre =$_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//; $titre=~s/\]\]>$//; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/'/g; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; return $titre,$description; }