([^<]+)<\/title>/; my $rub=$1; $rub=&nettoyagerub($rub); print "RUBRIQUE : $rub\n"; #--------------------------------------------------------------------------------------------------- my $output1=$repsortie."/SORTIE-extract-txt-".$rub.".xml"; my $output2=$repsortie."/SORTIE-extract-txt-".$rub.".txt"; my $output3=$repsortie."/SORTIE-extract-txt-".$rub."-treetagger.xml"; if ( -e $output1) { print "exsite: $rub"; } else { &fichiersortie($rub); } if (!open (FILEOUT1,">>:encoding(utf-8)", $output1)) { die "Pb a l'ouverture du fichier $output1"}; if (!open (FILEOUT2,">>:encoding(utf-8)", $output2)) { die "Pb a l'ouverture du fichier $output2"}; if (!open (FILEOUT3,">>:encoding(utf-8)", $output3)) { die "Pb a l'ouverture du fichier $output3"}; #---------------------------------------------------------------------------------------------------- my $cpt=0; my $compteurEtiquetage=0; #---------------------------------------------- while ($chainecomplete=~/<item><title>([^<]*)<\/title>.*?<description>([^<]*)<\/description>/g) { my $title=$1; my $description=$2; if (uc($encodage) ne "UTF8") { print "changement en utf8\n"; utf8($title); utf8($description); } if (!(exists $dicTitle{$title})){ $cpt++; $dicTitle{$title}++; $dicDescription{$description}++; $compteurEtiquetage++; #--------------nettoyage------------------- print "nettoyage"; $title=&nettoyage($title); $description=&nettoyage($description); print "ettiquetage"; #----------ettiquetage de titre et de decscription------------------ ($titletag,$descriptiontag)=&ettiquetage($title,$description); #------------------------------------------------- $tmptexteBRUT.="Ї $title \n"; $tmptexteBRUT.="$description \n"; $tmptexteXML.="<item num=\"$cpt\"><title>$title

#!/usr/bin/perl <>:encoding(utf-8)",$repsortie."\\".$fichier)) { die "Pb a l'ouverture du fichier $output1"}; print FILE "\n"; close(FILE); } } exit; #-----------fin d'execution----------------------------------- #----------definition des focntions---------------------------------------------------------------------------------------------------------------- sub parcoursarborescencefichiers { my $path = shift(@_); opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { next if $file =~ /^\.\.?$/; $file = $path."/".$file; if (-d $file) { &parcoursarborescencefichiers($file); #recurse! print "je rentre dans $file \n "; #my $attente=; } if (-f $file) { print "Traitement de : $file\n"; #print OUT "$file\n"; if (($file=~/\.xml$/) && ($file!~/\/fil.+\.xml$/)){ open(FILE,$file); $ligne=; print $file; close(FILE); #----------------------detecte encodqge-------------------------------- $ligne =~/encoding=[\'\"]([^\'\"]+)[\'\"]/i; my $encodage = $1; print "ENCODAGE : $encodage\n"; #---------------------------------------------------------------------- open (FILE,"<:encoding($encodage)",$file); $chainecomplete = ""; while ($ligne=) { chomp $ligne; $chainecomplete = $chainecomplete . " " . $ligne; } $chainecomplete=~s/> +([^<]+)<\/pubDate>/; $tmptexteXML.="$1\n"; $tmptexteXML.="\n"; my $tmptexteXMLtagger="\n"; $tmptexteXMLtagger.="$file\n"; $tmptexteXMLtagger.="$1\n"; $tmptexteXMLtagger.="\n"; my $tmptexteBRUT=""; open(FILE,"<:encoding($encodage)", $file); #print "Traitement de :\n$file\n"; $chainecomplete=""; while ($ligne=) { chomp $ligne; $chainecomplete = $chainecomplete . " " . $ligne; } close(FILE); $chainecomplete=~s/> *.*?([^<]+)<\/title>/; my $rub=$1; $rub=&nettoyagerub($rub); print "RUBRIQUE : $rub\n"; #--------------------------------------------------------------------------------------------------- my $output1=$repsortie."/SORTIE-extract-txt-".$rub.".xml"; my $output2=$repsortie."/SORTIE-extract-txt-".$rub.".txt"; my $output3=$repsortie."/SORTIE-extract-txt-".$rub."-treetagger.xml"; if ( -e $output1) { print "exsite: $rub"; } else { &fichiersortie($rub); } if (!open (FILEOUT1,">>:encoding(utf-8)", $output1)) { die "Pb a l'ouverture du fichier $output1"}; if (!open (FILEOUT2,">>:encoding(utf-8)", $output2)) { die "Pb a l'ouverture du fichier $output2"}; if (!open (FILEOUT3,">>:encoding(utf-8)", $output3)) { die "Pb a l'ouverture du fichier $output3"}; #---------------------------------------------------------------------------------------------------- my $cpt=0; my $compteurEtiquetage=0; #---------------------------------------------- while ($chainecomplete=~/<item><title>([^<]*)<\/title>.*?<description>([^<]*)<\/description>/g) { my $title=$1; my $description=$2; if (uc($encodage) ne "UTF8") { print "changement en utf8\n"; utf8($title); utf8($description); } if (!(exists $dicTitle{$title})){ $cpt++; $dicTitle{$title}++; $dicDescription{$description}++; $compteurEtiquetage++; #--------------nettoyage------------------- print "nettoyage"; $title=&nettoyage($title); $description=&nettoyage($description); print "ettiquetage"; #----------ettiquetage de titre et de decscription------------------ ($titletag,$descriptiontag)=&ettiquetage($title,$description); #------------------------------------------------- $tmptexteBRUT.="Ї $title \n"; $tmptexteBRUT.="$description \n"; $tmptexteXML.="<item num=\"$cpt\"><title>$title$description\n"; $tmptexteXMLtagger.="\n\n$titletag\n\n$descriptiontag\n\n"; } else { $tmptexteXML.="--\n"; print "doublons"; } } $tmptexteXML.="\n\n"; $tmptexteXMLtagger.="\n\n"; print FILEOUT1 $tmptexteXML; print FILEOUT2 $tmptexteBRUT; print FILEOUT3 $tmptexteXMLtagger; close FILEOUT1; close FILEOUT2; close FILEOUT3; } else { print "$file ==> $encodage \n"; } } } } } sub fichiersortie { my $rub=shift(@_); my $output1=$repsortie."/SORTIE-extract-txt-".$rub.".xml"; my $output2=$repsortie."/SORTIE-extract-txt-".$rub.".txt"; my $output3=$repsortie."/SORTIE-extract-txt-".$rub."-treetagger.xml"; if (!open (FILEOUT1,">:encoding(utf-8)", $output1)) { die "Pb a l'ouverture du fichier $output1"}; if (!open (FILEOUT2,">:encoding(utf-8)",$output2)) { die "Pb a l'ouverture du fichier $output2"}; if (!open (FILEOUT3,">:encoding(utf-8)",$output3)) { die "Pb a l'ouverture du fichier $output3"}; print FILEOUT1 "\n"; print FILEOUT1 "\n"; print FILEOUT1 "Chunxiao YAN 2015\n"; print FILEOUT3 "\n"; print FILEOUT3 "\n"; print FILEOUT3 "Chunxiao YAN 2015\n"; close(FILEOUT1); close(FILEOUT2); close(FILEOUT3); } sub ettiquetage { my ($title,$texte)=@_; #---------titre----------------- my $codage="utf-8"; my $tmptag="texteaetiqueter.txt"; #creer un fichier temporaire open(TMPFILE,">:encoding(utf-8)",$tmptag); print TMPFILE $title; close (TMPFILE); system("perl5.18.4 tokenise-utf8.pl $tmptag | tree-tagger.exe -token -lemma -no-unknown french-utf8.par > treetagger.txt"); system("perl5.18.4 treetagger2xml.pl treetagger.txt $codage"); open (TAGOUT,"<:encoding(utf-8)","treetagger.txt.xml"); my $titreetiquete=""; while (my $ligne=){ $titreetiquete.=$ligne; } close (TAGOUT); #-------------description--------- open(TMPFILE,">:encoding(utf-8)",$tmptag); print TMPFILE $texte; close (TMPFILE); system("perl5.18.4 tokenise-utf8.pl $tmptag | tree-tagger.exe -token -lemma -no-unknown french-utf8.par > treetagger.txt"); system("perl5.18.4 treetagger2xml.pl treetagger.txt $codage"); open (TAGOUT,"<:encoding(utf-8)","treetagger.txt.xml"); my $texteetiquete=""; while (my $ligne=){ $texteetiquete.=$ligne; } close (TAGOUT); return($titreetiquete,$texteetiquete); } sub nettoyage { my $chainetrouvee=shift(@_); $chainetrouvee=~s/'/'/g; $chainetrouvee=~s/"/"/g; $chainetrouvee=~s/'/'/g; $chainetrouvee=~s/"/"/g; $chainetrouvee=~s/é/ЈІ/g; $chainetrouvee=~s/ê/ЈК/g; $chainetrouvee=~s/<.*?>//g; $chainetrouvee=~s/&/&/g; $chainetrouvee=~s/>/&/g; return $chainetrouvee; } sub nettoyagerub { my $rub=shift(@_); $rub=~ s/Le ?Monde.fr ?://g; $rub=~s/ ?: ?Toute l'actualitЈІ sur Le Monde.fr.//g; $rub=~s/\x{E8}/e/g; $rub=~s/\x{E0}/a/g; $rub=~s/\x{E9}/e/g; $rub=~s/\x{C9}/e/g; $rub=~s/ //g; $rub=uc($rub); # mise en majuscules $rub=~s/-LEMONDE.FR//g; $rub=~s/:TOUTEL'ACTUALITESURLEMONDE.FR.//g; $rub=~s/LEMONDE.FR-ACTUALITE//g; return $rub }