#!/usr/bin/perl use warnings; use strict; use Getopt::Std; # use Data::Dumper; use open IO => ':encoding(UTF-8)';#tree-tagger use vars '$opt_t'; my $MODIF="2018-05-16"; my $DOC=< de lire l'ensemble de texte dans une chaine de caracs # typique usage de local; my est illegal pour les variables de ponctuation # (comme $_ $/ $") # 2. on segmente la chaine (par '\n') en liste de patrons # astuce : la boucle (comme while(my $var = )) est couteux pour # la meme tache; split est plus efficace #--------------------------------------------------------------------------- my $mesPatrons = do { local $/; <$FHPOS> }; # $mesPatrons=~ s/\r//g; my @listePatrons = split('\n', $mesPatrons); close($FHPOS); #--------------------------- # Initialisation des listes #-------------------------- my @maLigneSegmentee = (); my @listeTokens = (); my @listePOS = (); #------------------------------------------------------------------------------ # Lecture du fichier de tags ligne par ligne # extraction des tokens et des pos, puis les stocker dans les listes #------------------------------------------------------------------------------ while (my $ligne = <$FHTAG>) { chomp($ligne); if(defined($opt_t)) { if ($ligne =~ m/([^<]+)<\/data>[^<]+<\/data>([^<]+)<\/data><\/element>/) { push(@listeTokens, $2); push(@listePOS, $1); } } else { @maLigneSegmentee = split("\t", $ligne); if (scalar(@maLigneSegmentee)==3) { push(@listeTokens, $maLigneSegmentee[0]); push(@listePOS, $maLigneSegmentee[2]); } } } close($FHTAG); #--------------------------------------------------- # on va maintenant parcourir les POS et les TOKENS #---------------------------------------------------------------------------------------- # 1. on cree une liste tmp des POS que l'on va parcourir en supprimant le premier element # a chaque fois # 2. on cree un dictionnaire de termes (table de hashage) pour stocker les termes trouves #---------------------------------------------------------------------------------------- my @tmpListePOS=@listePOS; my $indice=0; my %terminologie; while (my $pos = shift(@tmpListePOS)) { foreach my $patron (@listePatrons) { #----------------------------------- # on segmente le patron pour connaitre # son premier element my @listeTerme = split('#',$patron); #----------------------------------- # on teste si l'element courant POS correspond au premier element du patron... if ($pos=~/$listeTerme[0]/) { # si c'est OK... # on regarde maintenant s'il y a correspondance pour la suite... my $verif=0; for (my $i=0;$i<=$#listeTerme-1;$i++) { if ($tmpListePOS[$i]=~/$listeTerme[$i+1]/) { #Le suivant est bon aussi... $verif++ ; } } #------------------------------------------------------------------------ # si verif est egal au nb d'element du patron c'est qu'on a trouve un terme # on enchaine les tokens en terme; puis ajoute le terme au dict de termes #------------------------------------------------------------------------ if ($verif == $#listeTerme) { my $termTrouve=""; for (my $i=0;$i<=$#listeTerme;$i++) { $termTrouve.=$listeTokens[$indice+$i]." "; } $termTrouve=~ s/ $/\n/g; push(@{$terminologie{$patron}},$termTrouve); } } } $indice++; # on avance dans la liste des POS et des TOKEN } #----------------------------------- # Impression de résultats #----------------------------------- # alt: print Dumper(\%terminologie); while ((my $patron, my $terms) = each %terminologie){ $patron =~ s/#/_/g; open(my $FH, ">", "$patron.txt"); print $FH "\n\n------ $patron ------\n\n"; foreach my $term (@$terms) { print $FH $term; } close($FH); }