Accueil Boîte à outils 1 Boîte à outils 2 Boîte à outils 3 Boîte à outils 4

Boîte à outils 3

Présentation

Quant à la Boîte à outils 3, il s'agit de travailler sur l'extraction de patrons syntaxiques à partir de la sortie digérée par les parseurs présentés plus haut. Ici, nous nous sommes intéressées au patron NOM ADJ (postposition de l'adjectif dans le SN).

Au moins deux solutions s'offrent à nous pour effectuer ce traitement:

Extraction de patrons avec Tree-tagger

Pourquoi XPath? Because the path to success has many potholes, et XPath nous permet de les éviter!
En effet, puisque l'on a obtenu une sortie au format XML à partir de l'étiquetage par TreeTagger, XPath ne peut ici qu'être fort approprié.

Le document XML est mis en forme à l'aide d'une feuille de style Xslt, décrivant une suite de règles s'appliquant sur les noeuds ciblés -porteurs de l'information sur les catégories syntaxiques-, qui contiennent donc des requêtes Xpath.
On veut que le fichier soit présenté comme suit:

NOM ADJ
NOM ADJ
NOM ADJ
...

La feuille de style ici employée a deux états:

Extraction de patrons avec Cordial

Il s'est agi d'appliquer à la sortie Cordial un script Perl, lequel prend en arguments la sortie de l'étiquetage et un fichier listant les patrons syntaxiques à extraire. On a en sortie un fichier au format texte, de structure analogue à notre sortie obtenue avec les requêtes Xpath sur la sortie Tree-Tagger.

Pour s'amuser un peu, parce que dans la vie il faut bien rire, on a écrit un petit script cordial2xml.pl qui transforme la sortie de l'étiquetage Cordial en document XML structuré de la même façon que notre sortie Tree-Tagger. Cela nous permettrait ensuite d'extraire les patrons avec la feuille de style Xslt.

Dans ce cas, on en viendrait à extraire de la même façon les patrons des fichiers parsés par Tree-Tagger et par Cordial.