#/usr/bin/perl
<<DOC; 
Nom : Rachid Belmouhoub
MARS 2010
 usage : perl bao3_rb.pl fichier_tag fichier_motif
DOC
#
use XML::XPath;
# On vérifie le nombre d'arguments de l'appel au script ($0 : le nom du script)
if($#ARGV!=1){print "usage : perl $0 fichier_tag fichier_motif";exit;}
# Enregistrement des arguments dans les variables idoines
my $tag_file= shift @ARGV;
my $patterns_file = shift @ARGV;
# Queqlues initialisation fort utiles
my @patterns;
my $nb_patterns=0;
my $nb_tokens=0;
#
open(PATTERNSFILE, $patterns_file) or die "can't open $patterns_file: $!\n";
# lecture du fichier contenant les motifs, un motif par ligne (par exemple : NOM ADJ)
while ($ligne = <PATTERNSFILE>) {
	# on supprime avec la fonction chomp un éventuel retour à la ligne
	chomp($ligne);
	# 
	$nb_patterns = push(@patterns,$ligne);
}
# création de l'objet XML::XPath pour explorer le fichier de sortie tree-tagger XML
my $xp = XML::XPath->new( filename => $tag_file ) or die "big trouble";
#
# recherche des motifs dans le fichier de sortie treetagger xml
foreach my $pattern (@patterns){
	# construction au moyen de la fonction split d'un tableau dont chaque élément a pour valeur  un token du motif recherché
	@tokens=split(/ /,$pattern);
	# définition du nom du fichier de sortie pour le motif en utilisant la fonction join
	my $match_file = "res_extract-".join('_', @tokens).".txt";
	open(MATCHFILE, ">$match_file") or die "can't open $match_file: $!\n";
	# appel de la procédure d'extraction des formes correspondants au motif
	&extract_pattern(@tokens);
	close(MATCHFILE);
}
# routine d'extraction d'un motif
sub extract_pattern{
	@tokenz=@_;
	# la fonction shift coupe le premier élement d'un tableau et le revoie en résultat
	$first_token=shift @tokenz;
	chomp($first_token);
	# Initialisation du chemin xpath correspondant au motif recherché
	# ATTENTION ici aux effets de bord dus à la structure choisie pour le fichier tree-tagger XML
	# par exemple pour le motif NOM ADJ : une description d'un fil rss qui se termine par un NOM suivie d'une autre description qui commence par un ADJ !
	$search_path="//element/data[1][contains(text(),\"$first_token\")]";
	foreach my $token (@tokenz){# construction  recursive du chemin xpath correspondant au motif recherché
		chomp($token);
		$search_path.="/ancestor::element/following-sibling::element[1]/data[1][contains(text(),\"$token\")]";
	}
	# boucle sur les nœud s reconnus du chemin xpath
	foreach my $noeud ( $xp->find($search_path)->get_nodelist ) {
		# initialisation du tableau des formes
		# on le fait ici pour des raisons évidentes d'économie de mémoire et donc de performance
		my @matching_tokens;
		# on remonte d'un cran au nœud  parent pour extraire la forme trouvée
		# dans le cas d'un motif NOM ADJ, c'est la forme de l'adjectif qu'on atteint
		$noeud_tmp=$noeud->getParentNode;
		$i=0;
		foreach (@tokens){
			$i++;
			# on récupère la forme
			# noter que le "3" de getChildNode(3) correspond au "data[3]" de la feuille XSLT
			$motif=$noeud_tmp->getChildNode(3)->string_value;
			# unshift(@matching_tokens,$motif) ajoute au début du tableau @matching_tokens un élément dont la valeur est le contenu de la variable $motif
			$nb_tokens=unshift(@matching_tokens,$motif);
			$motif="";
			# on remonte recursivement aux nœuds précedents pour extraire la forme
			# dans le cas d'un motif NOM PRP NOM, on récupère ainsi PRP puis NOM (le premier)
			# noter que "precding-sibling" est l'axe inverse de "following-sibling"
			@noeudtmp=$xp->find("./preceding-sibling::element[1]",$noeud_tmp)->get_nodelist;
			$noeud_tmp=shift(@noeudtmp);
		}
		# écriture des résultats dans un fichier en utilisant la fonction join, pratique !
		print MATCHFILE join(' ', @matching_tokens)."\n";
	}
}