Bao 2 Bao 3 Bao 4 Conclusion Contact Remerciements

BAO3 : Extraction terminologique


Première partie :

Extraction de patrons sur les sorties "brutes" de l'étiquetage (via Cordial) issues de BAO2.
A l'entrée on utilise le fichier SORTIE_cordial.cnr et le fichier patrons.txt comme un argument avec des patrons qu'on veut extraire.
Le résultat qui s'affichait à l'écran à été mis dans le fichier : result_patronbrutecord.txt
Les Patrons donnés etaient ADJ+NOM et NOM+PREP+NOM
Exemple de résultat : PrScrResPatr.jpg


Seconde partie :

La but de cette sous-partie était l'extraction de patrons sur la sortie au format XML (via Treetagger) issue de BAO 2 via un script perl fourni utilisant la bibliotheque XML::XPath.

Script perl : Extract_patron_tree.pl

On avait 2 patrons : NOM PRP NOM et NOM ADJ
Fichier avec les patrons : patterns.txt

Nous n'avons pas pu extraire les patrons a partir de la sortie de Treetagger car il n'etait pas adapté. Premieremant par sa construction interne. Deuxièmement, il y avait un token qui rendait le XML erroné (&).
Nous avons du modifier le fichier du script du Treetagger treetagger2xml-modifie.pl et relancer notre script etiquetreetag_modifie.pl

On a obtenu la sortie suivante : resultat-etiquet.txt.xml

Malheureusement ce fichier s'est avéré être trop lourd pour être traité dans l'étape suivante en entier. C'est pourquoi on a travaillé sur un extrait resul_reduit.xml
Les resultats obtenus : res_extract-NOM_PRP_NOM.txt et res_extract-NOM_ADJ.txt

Le fait que l'on n'ait pas pu traiter la sortie de Treetagger en entier montre que le script nécessite une optimisation. Ca peut être un remplacement de concatenisation par impression directe dans un fichier puisque il traite le corpus ligne par ligne. Ce qui pourrait liberer la memoire de l'ordinateur.


Dernière partie :

On a rajouté une feuille de styles XSLT aux resultats sortis de Treetagger pour construire la liste des patrons visés

Fichiers XML :

Fichiers XSL :



©2009-2010 Ekaterina Ostapenko - Irina Poltavchenko