([^<]+?)<\/title><link>(?:[^<]+?)<\/link><description>([^<]+?)<\/description>/g) { my $titre = $1; my $description = $2; $titre =~s/<.+?1gt.//g; $titre.="."; # s'il y'a un point d'exclamation ou d'interrogation avant, on enlève le point final $titre=~s/\?\.$/\?/; $description=~s/<.+>//g; if (!(exists $dico{$titre})) { $dico{$titre} = 1; print OUT "TITRE : $titre\n"; print OUT "DESCRIPTION : $description\n\n"; #my ($titretag,$descriptiontag) = &etiquetage($titre,$description); print OUT2 "<item><title>$titre

#!/usr/bin/perl <du fichierdu filtrage DOC #----------------------------------------------------------- my $rep="$ARGV[0]"; my $rubrique = "$ARGV[1]"; # on s'assure que le nom du répertoire ne se termine pas par un "/" my %dico; $rep=~ s/[\/]$//;# c'est 2016 # on initialise une variable contenant le flux de sortie #----------------------------------------PARCOURS ARBORESCENCEFICHIERS ($rep) my $output1="$rubrique.txt";# initialisation d'une variable contenant le flux de sortie if (!open (FILEOUT,">$output1")) { die "Pb a l'ouverture du fichier $output1"};# si le fichier ne s'ouvre pas il s'arrête mais si non il il s'ouvre et se ferme close(FILEOUT); my $output2="$rubrique.xml"; if (!open (FILEOUT,">$output2")) { die "Pb a l'ouverture du fichier $output2"}; print FILEOUT "\n"; print FILEOUT "\n"; print FILEOUT "Emmanuelle KELODJOUE\n"; close(FILEOUT); #---------------------------------------- #---------------------------------------- # on appelle une procédure par le symbole "&" et on la définit à la fin // $rep est l'argument e &parcoursarborescencefichiers($rep); #syntaxe du lancement d'un sous-programme; on lance la récursion.... et elle se terminera après examen de toute l'arborescence #---------------------------------------- open (FILEOUT, ">>:encoding(utf-8)", $output1); print FILEOUT "\n"; close(FILEOUT); exit; #---------------------------------------------- sub parcoursarborescencefichiers { #@_ liste d'arguements, c'est une varaible par défaut en perl my $path = shift(@_);#mémorise les paramètres passés en arguments/ shift enlève le premier élément # d'une liste pour le stocker opendir(DIR, $path) or die "can't open $path: $!\n"; #opendir est utlisé pour ouvrir le repertoire et non les fichiers; die : on sort du programme et on renvoie un message d'erreur # readdir renvoie la liste des fichiers qui sont dans 2016 my @files = readdir(DIR); closedir(DIR); #pour chaque élément de ce dossier foreach my $file (@files) { next if $file =~ /^\.\.?$/; # passe à l'élement suivant dans la liste si le fichier ets ./.. $file = $path."/".$file; # reconstruction du chemin relatif du fichier 2016/01 if (-d $file) { # si le fichier sur lequel je suis est un repertoire ? j'imprime le nom du reprertoire et je relance la procédure de parcours print " ==> ",$file,"\n"; &parcoursarborescencefichiers($file); #recurse!renommer 2016 print " ==> ",$file,"\n"; } # -f permet de savoir si l'objet est un fichier (file) ou pas if (-f $file) { #PROFONDEUR ----------------- # Insérer ici votre code (le filtreur)#inclure notre fichier entre les deux commentaires #Si c'est un fichier txt # si c'est un fichier txt if ($file =~/$rubrique.+\.txt$/) { $codage = "utf-8"; open (PROFONDEUR, ">>:encoding($codage)", "$rubrique"."profondeur.txt"); open (PROFONDEURXML, ">>:encoding($codage)", "$rubrique"."profondeur.xml"); #ramener tout le flux textuel de FIC sur une seule ligne my $texte=""; open (FIC, "<:encoding($codage)", $file); # tant que je peux lire 1 ligne dans le fichier // lecture du fichier ligne par ligne while (my $ligne = ) { # supprime le retour à ligne chomp $ligne; # regex pour retrouver les retours à la ligne // g => global $ligne =~ s/\r//g; $texte = $texte . $ligne; } close FIC; # supprime les blancs => \s $texte =~ s/>\s+]+?>([^<]+?)\n"."$article\n"."\n\n"; } $texte=&nettoie($texte); close PROFONDEUR; close PROFONDEURXML; } # Si c'est un fichier xml if ($file =~ /$rubrique.+\.xml$/) { print "<",$i++,"> ==> ",$file,"\n"; # imprime le nom de fichier précédé par un compteur // permet de verifier dans la ligne de comande qu'on traite bien les bons fichiers $codage = "utf-8"; #my %dico; #a délpacer en haut du programme #nom du fichier rss que l'on veut traiter et l'encodage open (FIC, "<:encoding(utf-8)", $file); #moderne open my $in,"<",$ARGV[0]; open (OUT, ">>:encoding(utf-8)", "$rubrique.txt"); open (OUT2, ">>:encoding(utf-8)", "$rubrique.xml"); #ramener tout le flux textuel de FIC sur une seule ligne my $texte=""; while (my $ligne = ) {#if (ligne) chomp $ligne; #enlève le caractère à la ligne $ligne =~ s/\r//g;# motif de substittution et pour retrouver les retours à la ligne / g=> global $texte = $texte . $ligne; } close FIC; $texte =~ s/>\s+([^<]+?)<\/title><link>(?:[^<]+?)<\/link><description>([^<]+?)<\/description>/g) { my $titre = $1; my $description = $2; $titre =~s/<.+?1gt.//g; $titre.="."; # s'il y'a un point d'exclamation ou d'interrogation avant, on enlève le point final $titre=~s/\?\.$/\?/; $description=~s/<.+>//g; if (!(exists $dico{$titre})) { $dico{$titre} = 1; print OUT "TITRE : $titre\n"; print OUT "DESCRIPTION : $description\n\n"; #my ($titretag,$descriptiontag) = &etiquetage($titre,$description); print OUT2 "<item><title>$titre$description\n"; } } close OUT; close OUT2; #fin du traitement du fichier } } } } #-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-> Procédure pour nettoyer les caractères spéciaux <-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-# #suppression des éléements non pertinents sub nettoie { my $texte=shift; $texte=~s/<//g; $texte=~s/]+>//g; $texte=~s/]+>//g; $texte=~s/<\/a>//g; $texte=~s/"/"/g; $texte=~s/<[^>]+>//g; $texte=~s/'/'/g; $texte=~s/"/"/g; $texte=~s/ //g; $texte=~s/–/–/g; $texte=~s/ & / & /g; $texte=~s/ / oe /g; $texte=~s/&/&/g; $texte=~s/&/&/g; $texte=~s/"/"/g; $texte=~s/'/'/g; $texte=~s/<//g; $texte=~s/>/>/g; $texte=~s/ //g; $texte=~s/£/£/g; $texte=~s/£/£/g; $texte=~s/©/©/g; $texte=~s/«/«/g; $texte=~s/«/«/g; $texte=~s/»/»/g; $texte=~s/»//g; $texte=~s/É/É/g; $texte=~s/É/É/g; $texte=~s/í/î/g; $texte=~s/î/î/g; $texte=~s/ï/ï/g; $texte=~s/ï/ï/g; $texte=~s/à/à/g; $texte=~s/à/à/g; $texte=~s/â/â/g; $texte=~s/â/â/g; $texte=~s/ç/ç/g; $texte=~s/ç/ç/g; $texte=~s/è/è/g; $texte=~s/è/è/g; $texte=~s/é/é/g; $texte=~s/é/é/g; $texte=~s/ê/ê/g; $texte=~s/ê/ê/g; $texte=~s/ô/ô/g; $texte=~s/ô/ô/g; $texte=~s/û/û/g; $texte=~s/û/û/g; $texte=~s/ü/ü/g; $texte=~s/ü/ü/g; $texte=~s/ü/ü/g; $texte=~s/\x9c/œ/g; $texte=~s///g; $texte=~s///g; $texte=~s/.*?<\/a>//g; $texte=~s//$1/g; $texte=~ s/<[^>]>//g; $texte=~s/\.$//; # protéger un caractère $texte=~s/ & /et/g;# s permet de substituer $texte=~s/]+>//g; $texte=~s/]+>//g; $texte=~s/<\/a>//g; $texte=~s/<[^>]+>//g; $texte=~s/&/et/g; $texte=~s/\x{201c}/â€œ/g; $texte=~s/\x{201d}/â€/g; $texte=~s/\x{2019}/'/g; $texte=~s/\x{2018}/â€˜/g; $texte=~s/\x{2013}/-/g; $texte=~s/\x{2192}/â†’/g; $texte=~s/\x{2026}/.../g; $texte=~s/\x{0153}/Å“/g; $texte=~s/\x{0152}/Å’/g; $texte=~s/\x{fffd}/ï¿½/g; # caractÃ¨re de remplacement $texte=~s/\x{20ac}/â‚¬/g; $texte=~s/\x{2009}/â€¯/g; # espace court return $texte; } }