([^<]*)<\/title>.*?<description>([^<]*)<\/description>.*?<\/item>/g) { my $titre = $1; my $description = $2; my ($titrenettoye,$descriptionnettoye) = &nettoyage($titre,$description); if (exists $doublons{$titrenettoye}) { $doublons{$titrenettoye}++; } else { $doublons{$titrenettoye}=1; print OUT "$titrenettoye\n"; print OUT "$descriptionnettoye\n"; print OUTXML "<article>\n"; print OUTXML "<titre>$titrenettoye</titre>\n"; print OUTXML "<description>$descriptionnettoye</description>\n"; print OUTXML "</article>\n"; } } } } } } sub nettoyage { my $var = $_[0]; #my ($tit, $des) = @_; my $var1 = $_[1]; $var = $var . "." ; # $var .= "."; #$var1 = $var1 . "."; $var1 =~ s/'/'/g; return $var, $var1; } #----------------------------------------------

#/usr/bin/perl #----------------------------------------------------------- <:encoding(utf-8)", "sortie-$rubrique-regexp.txt"); open(OUTXML, ">:encoding(utf-8)", "sortie-$rubrique-regexp.xml"); print OUTXML "\n"; print OUTXML "\n"; #---------------------------------------- &parcoursarborescencefichiers($rep); #recurse! close OUT; print OUTXML "\n"; close OUTXML; exit; #---------------------------------------------- sub parcoursarborescencefichiers { my $path = shift(@_); opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { next if $file =~ /^\.\.?$/; $file = $path."/".$file; if (-d $file) { print "on entre dans $file \n"; &parcoursarborescencefichiers($file); #recurse! } if (-f $file) { if ($file=~/$rubrique.+\.xml$/) { print $i++," : $file \n"; open(FIC, "<:encoding(utf-8)", $file); my $tout_le_texte=""; while (my $ligne = ) { chomp $ligne; $tout_le_texte = $tout_le_texte . $ligne . " "; } close FIC; while ($tout_le_texte =~ /.*?([^<]*)<\/title>.*?<description>([^<]*)<\/description>.*?<\/item>/g) { my $titre = $1; my $description = $2; my ($titrenettoye,$descriptionnettoye) = &nettoyage($titre,$description); if (exists $doublons{$titrenettoye}) { $doublons{$titrenettoye}++; } else { $doublons{$titrenettoye}=1; print OUT "$titrenettoye\n"; print OUT "$descriptionnettoye\n"; print OUTXML "<article>\n"; print OUTXML "<titre>$titrenettoye</titre>\n"; print OUTXML "<description>$descriptionnettoye</description>\n"; print OUTXML "</article>\n"; } } } } } } sub nettoyage { my $var = $_[0]; #my ($tit, $des) = @_; my $var1 = $_[1]; $var = $var . "." ; # $var .= "."; #$var1 = $var1 . "."; $var1 =~ s/'/'/g; return $var, $var1; } #----------------------------------------------