$titre

#!/usr/bin/perl use XML::RSS; <du fichierdu filtrage DOC #----------------------------------------------------------- my $rep="$ARGV[0]"; my $rubrique = "$ARGV[1]"; # on s'assure que le nom du répertoire ne se termine pas par un "/" my %dico; $rep=~ s/[\/]$//;# c'est 2016 # on initialise une variable contenant le flux de sortie #----------------------------------------PARCOURS ARBORESCENCEFICHIERS ($rep) my $output1="$rubrique.txt";# initialisation d'une variable contenant le flux de sortie if (!open (FILEOUT,">$output1")) { die "Pb a l'ouverture du fichier $output1"};# si le fichier ne s'ouvre pas il s'arrête mais si non il il s'ouvre et se ferme close(FILEOUT); my $output2="$rubrique.xml"; if (!open (FILEOUT,">$output2")) { die "Pb a l'ouverture du fichier $output2"}; print FILEOUT "\n"; print FILEOUT "\n"; print FILEOUT "Emmanuelle KELODJOUE\n"; close(FILEOUT); #---------------------------------------- #---------------------------------------- # on appelle une procédure par le symbole "&" et on la définit à la fin // $rep est l'argument e &parcoursarborescencefichiers($rep); #syntaxe du lancement d'un sous-programme; on lance la récursion.... et elle se terminera après examen de toute l'arborescence #---------------------------------------- open (FILEOUT, ">>:encoding(utf-8)", $output1); print FILEOUT "\n"; close(FILEOUT); exit; #---------------------------------------------- sub parcoursarborescencefichiers { #@_ liste d'arguements, c'est une varaible par défaut en perl my $path = shift(@_);#mémorise les paramètres passés en arguments/ shift enlève le premier élément # d'une liste pour le stocker opendir(DIR, $path) or die "can't open $path: $!\n"; #opendir est utlisé pour ouvrir le repertoire et non les fichiers; die : on sort du programme et on renvoie un message d'erreur # readdir renvoie la liste des fichiers qui sont dans 2016 my @files = readdir(DIR); closedir(DIR); #pour chaque élément de ce dossier foreach my $file (@files) { next if $file =~ /^\.\.?$/; # passe à l'élement suivant dans la liste si le fichier ets ./.. $file = $path."/".$file; # reconstruction du chemin relatif du fichier 2016/01 if (-d $file) { # si le fichier sur lequel je suis est un repertoire ? j'imprime le nom du reprertoire et je relance la procédure de parcours print " ==> ",$file,"\n"; &parcoursarborescencefichiers($file); #recurse!renommer 2016 print " ==> ",$file,"\n"; } # Traitement de la profondeur via XML::RSS # -f permet de savoir si l'objet est un fichier (file) ou pas if (-f $file) { #PROFONDEUR ----------------- # Insérer ici votre code (le filtreur)#inclure notre fichier entre les deux commentaires #Si c'est un fichier txt # si c'est un fichier txt if ($file =~/$rubrique.+\.txt$/) { $codage = "utf-8"; open (PROFONDEUR, ">>:encoding($codage)", "$rubrique"."profondeur.txt"); open (PROFONDEURXML, ">>:encoding($codage)", "$rubrique"."profondeur.xml"); #ramener tout le flux textuel de FIC sur une seule ligne my $texte=""; open (FIC, "<:encoding($codage)", $file); # tant que je peux lire 1 ligne dans le fichier // lecture du fichier ligne par ligne while (my $ligne = ) { # supprime le retour à ligne chomp $ligne; # regex pour retrouver les retours à la ligne // g => global $ligne =~ s/\r//g; $texte = $texte . $ligne; } close FIC; # supprime les blancs => \s $texte =~ s/>\s+]+?>([^<]+?)\n"."$article\n"."\n\n"; } $texte=&nettoie($texte); close PROFONDEUR; close PROFONDEURXML; } # TRAITEMENT SURFACE # Si c'est un fichier xml if ($file =~ /$rubrique.+\.xml$/) { print "<",$i++,"> ==> ",$file,"\n"; # imprime le nom de fichier précédé par un compteur // permet de verifier dans la ligne de comande qu'on traite bien les bons fichiers $codage = "utf-8"; #my %dico; #a délpacer en haut du programme #nom du fichier rss que l'on veut traiter et l'encodage #open (FIC, "<:encoding(utf-8)", $file); #moderne open my $in,"<",$ARGV[0]; open (OUTTXT, ">>:encoding(utf-8)", "$rubrique.txt"); open (OUTXML, ">>:encoding(utf-8)", "$rubrique.xml"); # APPEL DE XML::RSS my $rss=new XML::RSS; eval {$rss->parsefile($file); }; if($@) { $@=~ s/at\/.*?$//s; } else { my $date=$rss->{'channel'}->{'pubDate'}; print OUTXML "\n"; print OUTXML "$date\n"; foreach my $item (@{$rss->{'items'}}) { my $titre=$item->{'title'}; my $resume=$item->{'description'}; if ((!(exists $dicoTitre{$titre})) and (!(exists $dicoDescription{$resume}))) { # Appel fonction nettoie $titre=&nettoie($titre); $resume=&nettoie($resume); $dicoTitre{$titre}=1; $dicoDescription{$resume}=1; #fonction disponible avec une bibliothèque unicode::string #if (uc($encodage) ne "utf-8") {utf8($titre);utf8($resume);} print OUTTXT"Titre : $titre\n"; print OUTTXT"Resume : $resume\n"; print OUTXML "$titre$resume\n"; } } } print OUTXML "\n" } } # fermer parcours #-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-> Procédure pour nettoyer les caractères spéciaux <-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-# #suppression des éléements non pertinents sub nettoie { my $texte=shift; $texte=~s/<//g; $texte=~s/]+>//g; $texte=~s/]+>//g; $texte=~s/<\/a>//g; $texte=~s/"/"/g; $texte=~s/<[^>]+>//g; $texte=~s/'/'/g; $texte=~s/"/"/g; $texte=~s/ //g; $texte=~s/–/–/g; $texte=~s/ & / & /g; $texte=~s/ / oe /g; $texte=~s/&/&/g; $texte=~s/&/&/g; $texte=~s/"/"/g; $texte=~s/'/'/g; $texte=~s/<//g; $texte=~s/>/>/g; $texte=~s/ //g; $texte=~s/£/£/g; $texte=~s/£/£/g; $texte=~s/©/©/g; $texte=~s/«/«/g; $texte=~s/«/«/g; $texte=~s/»/»/g; $texte=~s/»//g; $texte=~s/É/É/g; $texte=~s/É/É/g; $texte=~s/í/î/g; $texte=~s/î/î/g; $texte=~s/ï/ï/g; $texte=~s/ï/ï/g; $texte=~s/à/à/g; $texte=~s/à/à/g; $texte=~s/â/â/g; $texte=~s/â/â/g; $texte=~s/ç/ç/g; $texte=~s/ç/ç/g; $texte=~s/è/è/g; $texte=~s/è/è/g; $texte=~s/é/é/g; $texte=~s/é/é/g; $texte=~s/ê/ê/g; $texte=~s/ê/ê/g; $texte=~s/ô/ô/g; $texte=~s/ô/ô/g; $texte=~s/û/û/g; $texte=~s/û/û/g; $texte=~s/ü/ü/g; $texte=~s/ü/ü/g; $texte=~s/ü/ü/g; $texte=~s/\x9c/œ/g; $texte=~s///g; $texte=~s///g; $texte=~s/.*?<\/a>//g; $texte=~s//$1/g; $texte=~ s/<[^>]>//g; $texte=~s/\.$//; # protéger un caractère $texte=~s/ & /et/g;# s permet de substituer $texte=~s/]+>//g; $texte=~s/]+>//g; $texte=~s/<\/a>//g; $texte=~s/<[^>]+>//g; $texte=~s/&/et/g; $texte=~s/\x{201c}/â€œ/g; $texte=~s/\x{201d}/â€/g; $texte=~s/\x{2019}/'/g; $texte=~s/\x{2018}/â€˜/g; $texte=~s/\x{2013}/-/g; $texte=~s/\x{2192}/â†’/g; $texte=~s/\x{2026}/.../g; $texte=~s/\x{0153}/Å“/g; $texte=~s/\x{0152}/Å’/g; $texte=~s/\x{fffd}/ï¿½/g; # caractÃ¨re de remplacement $texte=~s/\x{20ac}/â‚¬/g; $texte=~s/\x{2009}/â€¯/g; # espace court return $texte; } #problème avec l'entête du fichier pour empêcher perl de lire la première ligne #reste à dupliquer pour faire la description, modfier la ligne #98; a cahque fois modifer le t avec le d } } # programme" #étique le tire et le renvoie # procédure sub etiquetage { my ($t,$d)=@_; #on intègre l'etiquetage open(TMP,">:encoding(utf-8)","titre.txt"); open(TMP2,">:encoding(utf-8)","description.txt"); print TMP $t; print TMP2 $d; close TMP; close TMP2; system("perl tokenise-utf8.pl titre.txt | tree-tagger.exe -token -lemma -no-unknown french-oral-utf-8.par > titre_tag.txt"); system("perl tokenise-utf8.pl description.txt | tree-tagger.exe -token -lemma -no-unknown french-oral-utf-8.par > description_tag.txt"); #system permet de lancier une ligne de commande depuis le script et non le terminal system("perl treetagger2xml-utf8.pl titre_tag.txt utf8"); system("perl treetagger2xml-utf8.pl description_tag.txt utf8"); #résultat est contenu dans titre_tag.txt # ouvrir fichier crée en lecture open(TMP3, "titre_tag.txt.xml"); open(TMP4, "description_tag.txt utf8"); my $t_tag=""; my $d_tag=""; my $ligne = ; my $ligne = ; while (my$ligne = ) { chomp $ligne; $t_tag = $t_tag . $ligne; } while (my$ligne = ) { chomp $ligne; $d_tag = $d_tag . $ligne; } close TMP3; close TMP4; return($t_tag,$d_tag); }