Extraction terminologique

 

Le but dans cette partie est de construire des listes des patrons en format TXT: NOM ADJ  à partir des fichiers de sortie de l'étape précédente (Boîte à outils 2).

Pour le fichier de sortie de treetagger nous avons utilisé une requête XPATH pour extraire les patrons: NOM ADJ

La requête: (//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3]) |(//element[./data[contains(text(),'ADJ')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3] ))

Pour afficher les résultats, nous avons créé une feuille de styles (fstyle1.xsl), en sortie nous aurons le fichier Sortie_treetagger.xml.

En fin Nous avons créé une autre feuille de styles pour construire les listes des patrons recherchés en format TXT.

La feuille de styles utilisée: fstyle2.xsl. Le fichier obtenu: liste_Patron_treetagger.txt, ce fichier sera l'entrée de la boîte à outils 4.

 

Pour le fichier obtenu par Cordial, nous avons utilisé un script Perl dans l'invite commande Windows pour extraire les patrons recherchés:

Le script utilisé: trouve_terme_cordial.pl

La syntaxe d'utilisation: perl trouve_terme_cordial.pl  SORTIECORDIAL.cnr   fichier_patron_cordial  

SORTIECORDIAL.cnr : est le fichier obtenu dans l'étape précédente (BàO 3).

fichier_patron_cordial: est un fichier de paramètre, c'est une expression régulière qui permet l'extraction des patrons NOM ADJ.

 

Le fichier obtenu (liste_Patron_cordial.txt) sera utilisé comme entrée pour la boîte à outils 4.