(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { # l'option s dans la recherche permet de tenir compte des \n my $titre=$1; my $description=$2; $numberItem++; if(!(exists $dico_des_titres{titres})) { $dico_des_titres{titire}=$description; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats en sorties print $output $titre, "\n"; print $output $description, "\n"; #1. tokenization des donnees a integrer dans le fichier xml #my ($titretokenisee, $descriptiontokenisee)=&tokenisationpourtreetagger($titre, $description); print $output "--------------------\n"; print $outxml "<item>\n"; #print $outxml "<titre>$titretokenisee</titre>\n"; #print $outxml "<description>$descriptiontokenisee</description>\n"; print $outxml "<titre>$titre</titre>\n"; print $outxml "<description>$description</description>\n"; print $outxml "</item>\n"; } } } } } } #------------------------------------------------ sub nettoyage { # quand on lance une procédure # perl range les arguments de la procédure dans une liste spéciale # qui s'appelle @_ #my $titre=shift(@_); autre solution en vidant la liste des arguments du programmes... #my $description=shift(@_); my $titre = $_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//g; $titre=~s/\]\]>$//g; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/&//g; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; # ajout du point en fin de chaîne $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/&//g; return $titre,$description; } #------------------------------------------------ sub treetagger { system "perl tokenise-utf8.pl -f ./resultat/sortiexml-$rubrique.xml | ./tree-tagger french-utf8.par -token -lemma -no-unknown -sgml > ./resultat/sortie-treetagger-$rubrique.txt"; system "perl treetagger2xml-utf8.pl ./resultat/sortie-treetagger-$rubrique.txt utf-8"; } #------------------------------------------------ sub udpipe { system "../distrib-udpipe-1.2.0-bin/udpipe-1.2.0-bin/bin-linux64/./udpipe --tokenize --tokenizer=presegmented --tag --parse ../distrib-udpipe-1.2.0-bin/modeles/french-sequoia-ud-2.5-191206.udpipe ./resultat/sortie-$rubrique.txt > ./resultat/sortie-udpipe-$rubrique.txt"; } sub tokenisationpourtreetagger { # arguments geres par la liste @_ my $titre=$_[0]; my $description=$_[1]; open my $tmpfile, ">:encoding(utf-8)", "tmpfile.txt"; print $tmpfile $titre; close $tmpfile; # on veut lancer le pg tokenizer sur les donnees envoyees a la procedure system "perl tokenise-utf8.pl -f tmpfile.txt > toktitre.txt"; # renvoyer le contenu du fichier titre et celui de description dans le pg principal $/=undef; open $tmpfile, "<:encoding(utf-8)", "toktitre.txt"; my $contenutitre=<$tmpfile>; close $tmpfile; #----------------------------------------------------------------------- open my $tmpfile, ">:encoding(utf-8)", "tmpfile.txt"; print $tmpfile $description; close $tmpfile; system "perl tokenise-utf8.pl -f tmpfile.txt > tokdescription.txt "; # renvoyer le contenu du fichier titre et celui de description dans le pg principal $/=undef; open my $tmpfile, "<:encoding(utf-8)", "tokdescription.txt"; my $contenudescription=<$tmpfile>; close $tmpfile; return $contenutitre, $contenudescription; } sub etiquetagetreetagger { system "cat ./resultat/sortiexml-$rubrique.xml | ./tree-tagger french-utf8.par -token -lemma -no-unknown -sgml > ./resultat/sortiexml2-$rubrique.xml"; system "perl treetagger2xml-utf8.pl ./resultat/sortiexml2-$rubrique.xml utf-8"; }

#!/usr/bin/perl # entre <:encoding(UTF-8)","./resultat/sortie-$rubrique.txt"; open my $outxml, ">:encoding(UTF-8)","./resultat/sortiexml-$rubrique.xml"; # ecrire l'en-tete dans le fichier de sortie xml print $outxml "\n"; print $outxml "\n"; my %dico_des_titres=(); my $numberItem=0; my $nbFile=0; my $time = Timer::Simple->new(); #---------------------------------------------- # on doit traiter le ficher RSS et seulement la rubrique qui nous interesse &parcoursarborescencefichiers($rep); #recurse! print $outxml "\n"; close $output; close $outxml; print "Nb item : $numberItem \n"; #---------------------------------------------- # etiqueter le fichier xml avec treetagger et ecrire le resultat en xml &treetagger; &udpipe; #&etiquetagetreetagger; #---------------------------------------------- #my $time = Timer::Simple->new(); print "temp d'exécution: $time\n"; exit; #---------------------------------------------- # Creation de fonction sub parcoursarborescencefichiers { my $path = shift(@_); # ouvrir un repertoire, opendir prend en argument le nom du repertoire et le chemin opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { next if $file =~ /^\.\.?$/; # on ignore les rep . et .. $file = $path."/".$file; # le . sert a concatener les chaine de caractere if (-d $file) { #print "on entre dans $file \n"; &parcoursarborescencefichiers($file); #recurse! #print "on sort de $file \n"; } if (-f $file) { #on traite uniquement les fichiers xml if ($file =~/$rubrique.+xml$/) { print $nbFile++," Traitement de : ",$file,"\n"; open my $input, "<:encoding(UTF-8)", "$file"; # lecture global du ficher $/=undef; my $textelu=<$input>; close $input; while ($textelu=~/.*?(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) { # l'option s dans la recherche permet de tenir compte des \n my $titre=$1; my $description=$2; $numberItem++; if(!(exists $dico_des_titres{titres})) { $dico_des_titres{titire}=$description; # Appel du sous-programme de nettoyage ($titre,$description)=&nettoyage($titre,$description); # Ecriture des résultats en sorties print $output $titre, "\n"; print $output $description, "\n"; #1. tokenization des donnees a integrer dans le fichier xml #my ($titretokenisee, $descriptiontokenisee)=&tokenisationpourtreetagger($titre, $description); print $output "--------------------\n"; print $outxml "<item>\n"; #print $outxml "<titre>$titretokenisee</titre>\n"; #print $outxml "<description>$descriptiontokenisee</description>\n"; print $outxml "<titre>$titre</titre>\n"; print $outxml "<description>$description</description>\n"; print $outxml "</item>\n"; } } } } } } #------------------------------------------------ sub nettoyage { # quand on lance une procédure # perl range les arguments de la procédure dans une liste spéciale # qui s'appelle @_ #my $titre=shift(@_); autre solution en vidant la liste des arguments du programmes... #my $description=shift(@_); my $titre = $_[0]; my $description = $_[1]; $titre=~s/^<!\[CDATA\[//g; $titre=~s/\]\]>$//g; $description=~s/^<!\[CDATA\[//; $description=~s/\]\]>$//; $description=~s/<.+?>//g; $description=~s/'/'/g; $description=~s/"/"/g; $description=~s/&//g; $titre=~s/<.+?>//g; $titre=~s/'/'/g; $titre=~s/"/"/g; # ajout du point en fin de chaîne $titre=~s/$/\./g; $titre=~s/\.+$/\./g; $titre=~s/&//g; return $titre,$description; } #------------------------------------------------ sub treetagger { system "perl tokenise-utf8.pl -f ./resultat/sortiexml-$rubrique.xml | ./tree-tagger french-utf8.par -token -lemma -no-unknown -sgml > ./resultat/sortie-treetagger-$rubrique.txt"; system "perl treetagger2xml-utf8.pl ./resultat/sortie-treetagger-$rubrique.txt utf-8"; } #------------------------------------------------ sub udpipe { system "../distrib-udpipe-1.2.0-bin/udpipe-1.2.0-bin/bin-linux64/./udpipe --tokenize --tokenizer=presegmented --tag --parse ../distrib-udpipe-1.2.0-bin/modeles/french-sequoia-ud-2.5-191206.udpipe ./resultat/sortie-$rubrique.txt > ./resultat/sortie-udpipe-$rubrique.txt"; } sub tokenisationpourtreetagger { # arguments geres par la liste @_ my $titre=$_[0]; my $description=$_[1]; open my $tmpfile, ">:encoding(utf-8)", "tmpfile.txt"; print $tmpfile $titre; close $tmpfile; # on veut lancer le pg tokenizer sur les donnees envoyees a la procedure system "perl tokenise-utf8.pl -f tmpfile.txt > toktitre.txt"; # renvoyer le contenu du fichier titre et celui de description dans le pg principal $/=undef; open $tmpfile, "<:encoding(utf-8)", "toktitre.txt"; my $contenutitre=<$tmpfile>; close $tmpfile; #----------------------------------------------------------------------- open my $tmpfile, ">:encoding(utf-8)", "tmpfile.txt"; print $tmpfile $description; close $tmpfile; system "perl tokenise-utf8.pl -f tmpfile.txt > tokdescription.txt "; # renvoyer le contenu du fichier titre et celui de description dans le pg principal $/=undef; open my $tmpfile, "<:encoding(utf-8)", "tokdescription.txt"; my $contenudescription=<$tmpfile>; close $tmpfile; return $contenutitre, $contenudescription; } sub etiquetagetreetagger { system "cat ./resultat/sortiexml-$rubrique.xml | ./tree-tagger french-utf8.par -token -lemma -no-unknown -sgml > ./resultat/sortiexml2-$rubrique.xml"; system "perl treetagger2xml-utf8.pl ./resultat/sortiexml2-$rubrique.xml utf-8"; }