#/usr/bin/perl <du fichierdu filtrage DOC #----------------------------------------------------------- ### CREATION D'UNE TABLE DE HACHAGE POUR RECUPERER LES CHIFFRES-CLES DES DIFFERENTES RUBRIQUES %rubrique = ( "3208" => "A la une.xml", "3210" => "International.xml", "3214" => "Europe.xml", "3224" => "Société.xml", "3232" => "Opinions.xml", "3234" => "Economie.xml", "3236" => "Médias.xml", "3238" => "Rendez-vous.xml", "3242" => "Sports.xml", "3244" => "Sciences.xml", "3246" => "Culture.xml", "3260" => "Livres.xml", "3404" => "Examens2008.xml", "3476" => "Cinéma.xml", "3546" => "Voyages.xml", "651865" => "Technologies.xml" ); my $rep="$ARGV[0]"; # on s'assure que le nom du répertoire ne se termine pas par un "/" $rep=~ s/[\/]$//; # on initialise une variable contenant le flux de sortie my $DUMPFULL1=""; #---------------------------------------- # on lance le parcours d'arborescence. &parcoursarborescencefichiers($rep); #recurse! # ON REPREND TOUS LES FICHIERS-RESULTATS CREES ET ON LES CLOTURE PAR AFIN QUE LES FICHIERS .XML SOIENT BIEN FORMES $path= "resultats/BaO1/"; opendir(DIR, $path) or die "can't open $path: $!\n"; my @newfiles = readdir(DIR); closedir(DIR); foreach my $fileresult (@newfiles) { if ( $fileresult =~ /\.xml$/ ) { $fileresult = "resultats/BaO1/".$fileresult; if (!open (FILEOUT,">>$fileresult")) { die "Pb a l'ouverture du fichier $fileresult"}; print FILEOUT "\n"; close(FILEOUT); } } #---------------------------------------- sub parcoursarborescencefichiers { my $path = shift(@_); opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { next if $file =~ /^\.\.?$/; $fich = $file; $file = $path."/".$file; if (-d $file) { &parcoursarborescencefichiers($file); #recurse! } if (-f $file) { # TRAITEMENT à réaliser sur chaque fichier if ( $file =~ /\.xml$/ ) { foreach $k (keys(%rubrique)) { if ( $file =~ /$k/ ) { $cle=$k; ################## FILTREUR ######### open (FILEINPUT, $file); $compteurtitle=0; $compteurdescription=0; $DUMPFULL1= "$file\n"; while ($ligne = ) { if (($ligne=~/(.*)<\/description>/)) { $texte=$1; if ($compteurdescription != 0) { $texte= &nettoyage($texte); $DUMPFULL1= $DUMPFULL1.$texte."\n"; } $compteurdescription++; } } close (FILEINPUT); $doss = "resultats" ; mkdir ($doss); $doss = $doss."/BaO1/" ; rmdir ($doss); mkdir ($doss); $out = $doss.$rubrique{$cle}; if (!open (FILEOUT,">>$out")) { die "Pb a l'ouverture du fichier $output"}; if (-z FILEOUT ) { print FILEOUT "\n"; print FILEOUT "\n"; print FILEOUT "KUZNIK\n"; print FILEOUT "".$DUMPFULL1."\n"; close(FILEOUT); } else { print FILEOUT "".$DUMPFULL1."\n"; close(FILEOUT); } } } print $i++,"\n"; ################### } } } } sub nettoyage { my $tmp= shift (@_); $tmp=~ s/'/'/g; $tmp=~ s/"/"/g; $tmp=~ s/é/é/g; $tmp=~ s/ê/ê/g; $tmp=~ s/[/[/g; $tmp=~ s/]/]/g; $tmp=~ s/&/and/g; $tmp=~ s/Retrouvez l'ensemble des dépêches sur http:\/\/www\.lemonde\.fr//g; $tmp=~ s/Lisez l'intégralité de l'article pour plus d'information\.//g; return $tmp; }