#!/cygdrive/C/Strawberry/perl/bin

# 1. encodage
my $encodage = 'utf-8';
binmode(STDIN,":$encodage");
binmode(STDOUT,":$encodage");

# 2. lecture du fichier d'entrée
open(my $file,"$ARGV[0]") || die "erreur a l'ouverture du fichier d'entrée en .xml";
my @lignes=<$file>;
close($file);

# 3. initilisation des sorties
my $output_directory = "EXTRACTION";
mkdir $output_directory;
open (my $output, ">", ".\\$output_directory\\motifs_extraits_treetagger.txt") || die "erreur a l'ouverture du fichier de sortie en .txt";

while (@lignes) {
    my $ligne=shift(@lignes);
    chomp $ligne;
    my $sequence="";
    my $longueur=0;
    if ( $ligne =~ /<element><data type=\"type\">$ARGV[1]<\/data><data type=\"lemma\">[^<]+<\/data><data type=\"string\">([^<]+)<\/data><\/element>/) {
        $sequence.=$1;
        $longueur++;
        my $indice=1;
        my $stop=1;
        while (($indice < $#ARGV) and ($stop == 1)) {
           my $nextligne=$lignes[$indice-1];
              if ( $nextligne =~ /<element><data type=\"type\">$ARGV[$indice+1]<\/data><data type=\"lemma\">[^<]+<\/data><data type=\"string\">([^<]+)<\/data><\/element>/) {
                    $sequence.=" ".$1;
                    $longueur++;
                  }
              else {
                    $stop=0;
               }
         $indice++;
        }
      if ($longueur == $#ARGV) {
        print $output $sequence,"\n";
     }
  }
}

close($output);
