(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { my $titre=$1; my $description=$2; if (!(exists $dico_des_titres{$titre})) { #on vérifie que le titre n'a pas encore été lu pour éviter les doublons $dico_des_titres{$titre}=$description ; # on appelle le sous-programme de nettoyage sur nos données ($titre,$description)=&nettoyage($titre,$description); # on écrit les résultats en sorties print OUT $titre,"\n"; print OUT $description,"\n"; print OUT "--------------------\n"; print OUTXML "<item numero='$compteur'>\n"; print OUTXML "<titre>$titre</titre>\n"; print OUTXML "<description>$description</description>\n"; print OUTXML "</item>\n"; $compteur++; } } } } } } #---------------------------------------------- # Un sous programme de nettoyage de chaînes sub nettoyage { my $titre = $_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//; $titre=~s/\]\]>$//; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; return $titre,$description; }

#/usr/bin/perl <:encoding(utf8)","sortie-txt_$rubrique.txt"); open(OUTXML,">:encoding(utf8)","sortie-xml_$rubrique.xml"); #on met la première ligne dans chaque fichier print OUTXML "\n"; print OUTXML "\n"; # création d'un dictionnaire vide destiné à contenir les titres my %dico_des_titres=(); #---------------------------------------- # On applique la fonction 'parcoursarborescencefichiers' sur le dossier donné en argument &parcoursarborescencefichiers($rep); #recurse! #---------------------------------------- close OUT; close OUTXML; exit; #---------------FONCTIONS----------------- sub parcoursarborescencefichiers { my $path = shift(@_); opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); #on ouvre les fichiers pour les stocker dans la variable puis on les ferme foreach my $file (@files) { next if $file =~ /^\.\.?$/; #on verifie que $file n'est pas un répertoire caché $file = $path."/".$file; if (-d $file) { #si $file est un répertoire on rappelle la fonction &parcoursarborescencefichiers($file); #recurse! } if (-f $file) { #si $file est un fichier on lance le traitement # On va cherche les fichiers xml if ($file =~/$rubrique.+xml$/) { # On affiche sur la sortie un message indiquant le traitement de chaque fichier print $i++," Traitement de : ",$file,"\n"; # On crée ouvre le fichier le question open(FIC,"<:encoding(utf8)",$file); $/=undef; # On stocke son contenu dans une variable my $textelu=; close FIC; #on recupère le contenu des fichiers my $compteur=1; #compteur qui permet de numéroter les items # On parcourt ce qu'on veut extraire dans le texte while ($textelu=~/.*?(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { my $titre=$1; my $description=$2; if (!(exists $dico_des_titres{$titre})) { #on vérifie que le titre n'a pas encore été lu pour éviter les doublons $dico_des_titres{$titre}=$description ; # on appelle le sous-programme de nettoyage sur nos données ($titre,$description)=&nettoyage($titre,$description); # on écrit les résultats en sorties print OUT $titre,"\n"; print OUT $description,"\n"; print OUT "--------------------\n"; print OUTXML "<item numero='$compteur'>\n"; print OUTXML "<titre>$titre</titre>\n"; print OUTXML "<description>$description</description>\n"; print OUTXML "</item>\n"; $compteur++; } } } } } } #---------------------------------------------- # Un sous programme de nettoyage de chaînes sub nettoyage { my $titre = $_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//; $titre=~s/\]\]>$//; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; return $titre,$description; }