(.+?)<\/title>.+?<description>(.+?)<\/description>/gs) { my $titre=$1; # on récupère le 1er zone de capture (1er parenthèse entre <title>

#/usr/bin/perl <new(); $t->start; # timer pour savoir le temps de traitement #----------------------------------------------------------- my $rep="$ARGV[0]"; # repertoire à traiter my $rubrique ="$ARGV[1]"; # rubrique à traiter # on s'assure que le nom du répertoire ne se termine pas par un "/" $rep=~ s/[\/]$//; # Ouverture des fichiers txt et XML open my $OUT,">:encoding(utf8)","bao2_sortie_$rubrique.txt"; open my $OUTXML,">:encoding(utf8)","bao2_sortiexml_$rubrique.xml"; # Ecriture de l'en-tête du fichier XML print $OUTXML "\n"; print $OUTXML "\n"; my %dico_des_titres=(); my $compteur=0; #---------------------------------------- # Appel du sous-programme &parcoursarborescencefichiers($rep); #recurse! #---------------------------------------- print $OUTXML "\n"; # Fermeture des fichiers close $OUT; close $OUTXML; #---------------------------------------- # Appel du sous-programme d'etiquetage &etiquetagetreetagger; &etiquetageudpipe; #---------------------------------------- #---------------------------------------- print "Temps de traitement : ", $t->elapsed, " secondes\n"; exit; #---------------------------------------------- # Sous-programme récursif sub parcoursarborescencefichiers { my $path = shift(@_); opendir(my $DIR, $path) or die "can't open $path: $!\n"; # On lit et renvoie comme valeur la liste @files my @files = readdir($DIR); closedir($DIR); # On va examiner un à un pour éviter de lire les fichiers cachés foreach my $file (@files) { # Si la condition est vrai on passe à l'itération suivante, on ne veut pas traiter next if $file =~ /^\.\.?$/; # on ne lit pas les fichiers cachés (. ou .. ) sinon boucle infini # S'il ne s'agit pas des fichiers cachés, on continue. On relance le parcours # Reécriture de localisation => on génère le nom relatif $file = $path."/".$file; # d : directory(repertoire) # S'il s'agit d'un répertoire…… if (-d $file) { # Ce qu'on cherche n'est pas un répertoire mais un fichier donc on relance le parcours # pour qu'on puisse arriver aux fichiers &parcoursarborescencefichiers($file); #recurse! # Donc on va parcourir de nouveau, $path devient 2020/01 par exemple … puis 2020/01/01… # Finalement on va arriver à un fichier } # f : file(fichier) # S'il s'agit d'un fichier…… if (-f $file) { # On ne veut pas traiter les fichiers qui ne sont pas au format XML # Donc l'extension doit être .xml if ($file =~/$rubrique.+xml$/) { # Impression du traitement en cours dans la console print $compteur++," Traitement de : ",$file,"\n"; # Ouverture du fichier open my $FIC,"<:encoding(utf8)",$file; $/=undef; my $ligne=<$FIC>; close $FIC; # On va extraire les contenus textuels de titre et de description avec expression régulère while ($ligne=~/.*?(.+?)<\/title>.+?<description>(.+?)<\/description>/gs) { my $titre=$1; # on récupère le 1er zone de capture (1er parenthèse entre <title>) my $description=$2; # on récupère le 2eme zone de capture (2eme parenthèse) #$numberItem++; # On évite de récuperer 2 fois la même information => utilisation de dictionnaire # Si le titre n'existe pas dans le dico_des_titres if (!(exists $dico_des_titres{$titre})) { # On ajoute $dico_des_titres{$titre}=$description ; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); #-------------------------------------------------- # Pretraitement pour treetagger my ($titretokenisee, $descriptiontokenisee)=&pretraitement($titre, $description); # Ecriture des fichiers de sortie # 1. Fichier au format txt print $OUT $titre,"\n"; print $OUT $description,"\n"; print $OUT "\n"; # 2. Fichier au format XML print $OUTXML "\n"; print $OUTXML "\n$titretokenisee\n"; print $OUTXML "\n$descriptiontokenisee\n"; print $OUTXML "\n"; # Si le titre exsite, on ne fait rien } } } } } } #---------------------------------------------- # Sous-programme nettoyage sub nettoyage { # On récupère les arguments my $titre = $_[0]; my $description = $_[1]; # Nettoyage ! # On enlève $titre=~s/^$//; $description=~s/^$//; # On enlève ou on remplace $description=~s/<.+?>//g; # < est le code de < , > est le code de > $description=~s/'/'/g; $description=~s/"/"/g; $titre=~s/<.+?>//g; $titre=~s/ / /g; $description=~s/ / /g; # On ajoute un point à la fin du titre # Pour la partie description il y a déjà le point à la fin => rien à faire $titre=~s/$/\./g; # S'il y a plusieur points => on ne laisse qu'un seul $titre=~s/\.+$/\./g; return $titre,$description; } #---------------------------------------------- # Sous-programme tokenisation pour treetagger # renvoie le titre et le description étiquétés sub pretraitement { # argument géré par la liste @_ my $titre=$_[0]; # titre est 1er argument passé my $description=$_[1]; # description est 2ème argument passé #------------------------------------- # Etiquetage - titre open my $ETIK, ">:encoding(utf8)", "temporaire.txt"; print $ETIK $titre; close $ETIK; system("perl -f ./etiquetage/tokenise-utf8.pl temporaire.txt > testetik.txt"); open my $TEMPO, "<:encoding(utf8)", "testetik.txt"; # On fait une lecture globale $/=undef; my $titre_etik=<$TEMPO>; close $TEMPO; #------------------------------------- # Etiquetage - description # On écrase précédent # Et maintenant on ouvre avec description open my $ETIK, ">:encoding(utf8)", "temporaire.txt"; print $ETIK $description; close $ETIK; # description system("perl -f ./etiquetage/tokenise-utf8.pl temporaire.txt > testetik.txt"); open my $TEMPO, "<:encoding(utf8)", "testetik.txt"; $/=undef; my $description_etik=<$TEMPO>; close $TEMPO; unlink "testetik.txt", "temporaire.txt"; return $titre_etik, $description_etik; } #---------------------------------------------- # Sous-programme etiquetage treetagger sub etiquetagetreetagger { # -sgml : ne touche pas aux balises system("perl -f ./etiquetage/tokenise-utf8.pl bao2_sortiexml_$rubrique.xml | ./etiquetage/treetagger/tree-tagger ./etiquetage/treetagger/french-utf8.par -token -lemma -no-unknown -sgml > bao2_sortiexml_treetagger_$rubrique"); # commande pour traiter & (car treetagger l'annote & NOM ; PUN - deux entrées différents - ) # donc cela posera le pb pour la sortie xml => on ajoute le point virgule à la fin pour chaque & system("sed -i '' -e 's & \\& g' bao2_sortiexml_treetagger_$rubrique"); system("perl ./etiquetage/treetagger/treetagger2xml-utf8.pl bao2_sortiexml_treetagger_$rubrique utf8"); } #---------------------------------------------- # Sous-programme etiquetage UDpipe sub etiquetageudpipe { # system : commande perl qui permet de lancer une commande Unix # --tokenizer=parsegmented : on ne veut pas su'il sursegmente system("./etiquetage/udpipe/udpipe-1.2.0-bin/bin-osx/udpipe --tokenize --tokenizer=parsegmented --tag --parse ./etiquetage/udpipe/modeles/french-gsd-ud-2.5-191206.udpipe bao2_sortie_$rubrique.txt > bao2_sortie_udpipe_$rubrique.txt"); # génération de la sortie au format xml également pour bao3 # system("perl ./etiquetage/udpipe/udpipe2xml.pl bao2_sortie_udpipe_$rubrique.txt"); }