Boîte à Outils 3

Objectif :
– On doit construire une liste de patrons à partir des contenus textuels des fils traités
● Liste des patrons à extraire :

NOM ADJ
NOM NOM
NOM PREP NOM

– En sortie, on doit obtenir une liste de patrons au format .txt

– Applications :
● un programme qui prend en entrée les sorties «brutes » de l’étiquetage (par exemple les sorties Cordial)
● programme qui prend en entrée les sorties xml créées à partir de TreeTagger
● requête XPATH sur le fichier XML construit

– Traitement à réaliser :
● à partir de Cygwin B20, pour l'extraction des patrons via les sorties Cordial et TreeTagger
● à partir de Cygwin, pour l'extraction des patrons via la feuille de style XSLT

Avec les sorties Cordial

A partir des sorties brutes Cordial, obtenues dans la BAO 2, nous avons utilisé le script du fameux mais non moins célèbre Serge Fleury, qui permet de donner en sortie les différents listes de patrons. Reportez-vous à la BAO 3 du site PLURITAL M1 Projet Encadré.



fonction_treetagger


En indiquant la commande de lancement du script : perl extract-terminologie-cordial-OK.pl pos.txt, dans l'invite de commande, nous avons remarqué que le résultat obtenu s'inscrivait dans l'invite de commande, alors que nous voulions qu'il s'inscrive dans un fichier .txt. Au bout de plusieurs minutes d'intense réflexion, nous nous sommes écriées : Eureka !!!!!. En effet, il fallait indiquer dans l'invite de commande le fichier de sortie.

Puis le processus s'exécute. Mais qu'est ce que c'est long !!!!!!!!!!!!!!!!!!!! Nous avons dû relancer la commande pour chaque rubrique !!!! La flemme. Nous, on a pris goût à l'automatisation des tâches ...


Télécharger le script perl pour les patrons avec les sorties Cordial

Télécharger le fichier de sortie EXAMENS2009


[haut de page]

Requête XPATH

Qu'est-ce que XPATH ?

XPath est un langage (non XML) pour localiser un noeud d'un document XML. Une expression XPath est un chemin de localisation, constitué de pas de localisation. Les pas de localisation sont séparés par le caractère « / ». Un chemin ressemble ainsi au chemin dans un système de fichiers. Les pas de localisation ont chacun trois composants :

● un axe : indique la direction dans laquelle se déplacer dans l'arbre XML, relativement au nœud courant ou depuis la racine.
● un test de nœud : permet de sélectionner ou non les nœuds en fonction de leur nom ou de leur type.
● des prédicats : expressions plus complexes ; ils sont utilisés pour filtrer les nœuds sélectionnés par l'axe et le test de nœud. Les prédicats sont écrits entre crochets (« [ », « ] »). Si le prédicat est évalué à vrai, les nœuds correspondants seront sélectionnés.

Utilisation des requêtes XPATH avec les sorties .xml

A partir des sorties -treetagger.xml, on effectue une requête XPATH dans une feuille de style XSLT afin d'obtenir les patrons NOM PREP NOM.

cordial


Voici la ligne de commande qu'il faut utiliser pour obtenir les patrons, avec la feuille de style XSLT dans l'invite de commande Cygwin :

cordial


Télécharger la feuille XSLT dans laquelle est inclue la requête XPATH

Télécharger un exemple d'extraction de patrons

[haut de page]

Avec les sorties TreeTagger

On effectue l'extraction des patrons via les sorties .xml obtenues dans la BAO 2 en réalisant un script PERL qui utilise une bibliothèque XPATH. Nous avons ici utilisé un script réalisé par deux étudiantes de l'année 2009-2010, Marie Garrigue et Sandy Bonin. Nous l'avons quelque peu modifié pour un meilleur rendu.


fonction_treetagger

Si nous avions suivi le script initial, nos fichiers de sortie des différentes rubriques auraient été écrasé. C'est pourquoi nous avons fait appel au module Basename, qui permet de créer un nom de fichier par rubriques afin que celles-ci ne soient pas écrasées.



Voici la ligne de commande qu'il faut utiliser, dans laquelle on indiquera le script PERL et le fichier de motif patterns.txt.

fonction_treetagger


Télécharger le dossier script PERL avec bibliothèque XPATH

Télécharger les fichiers de sorties Rub EXAMENS-2009

[haut de page]