#/usr/bin/perl <new(); # Démarrage du timer $t->start; #----------------------------------------------------------- # Récuperation des arguments à partir de la liste @ARGV avec laquelle le programme a été exécuté my $repertoire="$ARGV[0]"; my $rubrique ="$ARGV[1]"; my $rss=new XML::RSS; # Création de l'objet XML::RSS $repertoire=~ s/[\/]$//; # On évite que le chemin du répertoire finisse par "/" # Création de deux fichiers de sortie open my $OUT,">:encoding(utf8)","sortie-XMLRSS_$rubrique.txt"; open my $OUTXML,">:encoding(utf8)","sortie-XMLRSS-xml_$rubrique.xml"; #open my $OUTUDPIPE,">:encoding(utf8)","sortie-XMLRSS-udpipe_$rubrique.txt"; # Ecriture de l'entête du fichier xml print $OUTXML "\n"; print $OUTXML "\n"; my %dico_titres=(); # Hash pour éviter les doublons # Deux variables destinées au bon affichage dans le terminal my $nbItem=0; my $i=0; print "\n--->Extraction de la rubrique $rubrique<---\n\n"; #---------------------------------------- &parcoursarborescencefichiers($repertoire); # Procédure récursive pour récuperer le contenu textuel #---------------------------------------- # Fermeture de la balise racine et des fichiers output print $OUTXML "\n"; close $OUT; close $OUTXML; #close $OUTUDPIPE; #---------------------------------------- # Lancement des procédure qui étiquettent de façon globale, une fois que le corpus est constitué et tokenisé, d'une seul fois. &etiquetageTT; &etiquetageUD; #---------------------------------------- system("rm f_intermediere.txt f_intermediere.txt.pos"); print "Nb item : $nbItem \n"; # temps écoulé depuis le lancement du programme print "Temps écoulé... : ", $t->elapsed, " seconds\n"; exit; #---------------------------------------------- sub parcoursarborescencefichiers { # Récuperation de l'argument utilisé, càd du chemin du répertoire my $path = shift(@_); # Exploration de répertoire. L'erreur a été signalée s'il y en a une opendir(DIR, $path) or die "can't open $path: $!\n"; # Stokage dans un liste les fichiers du répertoire my @files = readdir(DIR); closedir(DIR); # On parcours la liste de fichier en ignorant les fichiers cachés. On traite chaque fichier après les avoir ordonnés. foreach my $file (sort @files) { # Si c'est vrai, on ignore les fichiers cachés next if $file =~ /^\.\.?$/; # Reconstruction du chemin $file = $path."/".$file; # Avec -d, on verifie si le fichier est un dossier. Si c'est le cas, on relance la procédure if (-d $file) { &parcoursarborescencefichiers($file); } # S'il s'agit d'un fichier, on le traite if (-f $file) { # Si c'est un fichier xml de notre rubrique ... if ($file =~/$rubrique.+xml$/) { print $i++," Traitement de : ",$file,"\n"; # Affichage du nb et du nom du fichier traité &traitement_XMLRSS($file) # Procédure pour traiter le fils RSS } } } } #---------------------------------------------- sub traitement_XMLRSS { my $file = shift(@_); eval {$rss->parsefile($file)}; # on remplit l'objet via parsefile sur la condition qu'il se passe bien. if( $@ ) { $@ =~ s/at \/.*?$//s; print STDERR "\nERROR in '$file':\n$@\n"; } # S'il n'y a pas des erreurs... else { # On parcours la liste des éléments et pour chaque élément item... foreach my $item (@{$rss->{'items'}}) { # Si on ne l'ai pas traité avant (s'il n'est pas dans le dico) if (!(exists $dico_titres{$item->{'title'}})) { $dico_titres{$item->{'title'}}=$item->{'description'}; $nbItem++; # On lance la procédure pour nettoyer les fils RSS (my $titre, my $description)=&nettoyage($item->{'title'},$item->{'description'}); # Récuperation de la date de chaque item $item->{'link'} =~ m/\/(\d{4}\/\d{2}\/\d{2}).+?/; my $date = $1; # Remplissage de fichier XML. print $OUT "$titre\n"; print $OUT "$description\n"; print $OUT "\n"; my ($titre_tokenise, $description_tokenise)=&tokenization($titre,$description); print $OUTXML "\n\n$titre_tokenise\n\n$description_tokenise\n\n"; } } } } #---------------------------------------------- sub nettoyage { # Récuperation des arguments de la procédure # Égal à my $titre=shift(@_); my $description=shift(@_); # Néttoyage de contenu non textuel. my $titre = $_[0]; my $description = $_[1]; $titre=~s/^$//; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/\?\.$/\?/g; $titre=~s/ //g; $titre=~s/&/&/g; $description=~s/^$//; $description=~s/$/\./g; $description=~s/\.+$/\./g; $description=~s/\?\.$/\?/g; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/ //g; $description=~s/&/&/g; return $titre, $description; } #---------------------------------------------- sub tokenization { # Récuperation des arguments de la procédure my $titre = $_[0]; my $description = $_[1]; #-----------------tokenisation titre----------------------------- # Création d'un fichier intermédiere avec le titre pour tokenisé le contenu &ecrire_fichier("f_intermediere.txt", $titre); # Lancement du tokenisateur de tree-tagger system ("perl -f ./tree-tagger-linux-3.2.3/tokenise-utf8.pl f_intermediere.txt > f_intermediere.txt.pos"); my $titre_tokenise_xml = &lire_fichier("f_intermediere.txt.pos"); #-----------------tokenisation description----------------------------- &ecrire_fichier("f_intermediere.txt", $description); system ("perl -f ./tree-tagger-linux-3.2.3/tokenise-utf8.pl f_intermediere.txt > f_intermediere.txt.pos"); my $description_tokenise_xml = &lire_fichier("f_intermediere.txt.pos"); # On revoie les deux variables contenant le titre et la description tokenisés. return $titre_tokenise_xml, $description_tokenise_xml; } #---------------------------------------------- sub etiquetageTT { # Étiquetage des POS et lemmas du français avec TreeTagger depuis le répertoire ./treetagger-3.2 # -f pour le français. Le modéle utilisé est destiné au français print "Tagging...\n"; system("perl -f ./tree-tagger-linux-3.2.3/tokenise-utf8.pl sortie-XMLRSS-xml_$rubrique.xml | ./tree-tagger-linux-3.2.3/bin/tree-tagger ./tree-tagger-linux-3.2.3/french-utf8.par -token -lemma -no-unknown -sgml > sortie-XMLRSS-xml-TT_$rubrique"); # Lancement de duexième programme pour baliser chaque nouvelle étiquette ou élément. # Ce programme a été légèrement modifié pour l'adapter à ce travail print "Création d'un fichier XML étiqueté...\n"; system("perl ./tree-tagger-linux-3.2.3/treetagger2xml-utf8.pl sortie-XMLRSS-xml-TT_$rubrique utf8"); # Nous changeons le html entities.. my $text = &lire_fichier("sortie-XMLRSS-xml-TT_$rubrique.xml"); $text =~ s/&/&/g; &ecrire_fichier("sortie-XMLRSS-xml-TT_$rubrique.xml", $text); system("rm sortie-XMLRSS-xml_$rubrique.xml sortie-XMLRSS-xml-TT_$rubrique"); } #----------------------------------------------- sub etiquetageUD { # Étiquetage en dépendance avec UDpipe depuis le programme situé dans le répertoire ./udpipe-1.2.0-bin # Sortie : un fichier txt format CONLL. # Utilisation de l'option --tokenizer=presegmented pour eviter la sur-segmentation system("./udpipe-1.2.0-bin/bin-linux64/udpipe --tokenize --tokenizer=presegmented --tag --parse ./udpipe-1.2.0-bin/modeles/french-gsd-ud-2.5-191206.udpipe sortie-XMLRSS_$rubrique.txt > sortie-XMLRSS-udpipe_$rubrique.txt"); } #-------------------------------------------------- sub lire_fichier { my ($filename) = @_; open my $in, '<:encoding(UTF-8)', $filename or die "Impossible d'ouvrir '$filename'$!"; local $/ = undef; my $texte = <$in>; close $in; return $texte; } #-------------------------------------------------- sub ecrire_fichier { my ($filename, $texte) = @_; open my $out, '>:encoding(UTF-8)', $filename or die "Impossible d'ouvrir '$filename'$!"; print $out $texte; close $out; return; }