Extraction terminologique
Le but dans cette partie est de construire des listes des patrons en format TXT: NOM ADJ à partir des fichiers de sortie de l'étape précédente (Boîte à outils 2).
Pour le fichier de sortie de treetagger nous avons utilisé une requête XPATH pour extraire les patrons: NOM ADJ
La requête: (//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3]) |(//element[./data[contains(text(),'ADJ')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3] ))
Pour afficher les résultats, nous avons créé une feuille de styles (fstyle1.xsl), en sortie nous aurons le fichier Sortie_treetagger.xml.
En fin Nous avons créé une autre feuille de styles pour construire les listes des patrons recherchés en format TXT.
La feuille de styles utilisée: fstyle2.xsl. Le fichier obtenu: liste_Patron_treetagger.txt, ce fichier sera l'entrée de la boîte à outils 4.
Pour le fichier obtenu par Cordial, nous avons utilisé un script Perl dans l'invite commande Windows pour extraire les patrons recherchés:
Le script utilisé: trouve_terme_cordial.pl
La syntaxe d'utilisation: perl trouve_terme_cordial.pl SORTIECORDIAL.cnr fichier_patron_cordial
SORTIECORDIAL.cnr : est le fichier obtenu dans l'étape précédente (BàO 3).
fichier_patron_cordial: est un fichier de paramètre, c'est une expression régulière qui permet l'extraction des patrons NOM ADJ.
Le fichier obtenu (liste_Patron_cordial.txt) sera utilisé comme entrée pour la boîte à outils 4.