Navigation


Objectif de la BàO3

Boîte à Outils 3 concerne l'extraction de patrons syntaxiques à partir de résultats de la BàO2.

On construit une liste de patrons à partir des contenus textuels des fils traités.
En sortie on aura une liste de patrons au forme de fichier *.txt. Cette liste sera le point d'entrée de la BàO4.


Extraction de patron avec Cordial

On applique le script Perl (pgm.pl), lequel prend en arguments la sortie de l'étiquetage et un fichier lisant les patrons syntaxiques à extraire. Il doit être accompagné d'un fichier (patrons.txt) contenant les motifs qu'on souhaite extraire.

Sur Cygwin, lors de l'execution, il faut préalablement convertir l'encodage (depuis la console) à l’aide de la commande: dos2unix.exe nom_fichier_a_convertir.txt

En sortie on aura de fichier texte qui sera lui même l'entrée de la serie 4 de la Boite à Outils.

Résultats sur la rubrique traitée:
nom adj, (pour la rubrique A la une ici)


Extraction de patron avec Treetagger - avec XPATH

   - Ecrire une requête pour extraire les éléments correspondant au patron. On construit une feuille de styles XSLT pour obtenir les listes de patrons au format texte.

    la requête - NOM ADJ:

(./data[contains(text(),'NOM')])
and
(following-sibling::element[1][./data[contains(text(),'ADJ')]])

On cherche parmi les éléments contenant la chaîne NOM, ceux qui sont précédés juste avant par un élément contenant la chaîne ADJ.

    la requête - NOM PRP NOM:

(./data[contains(text(),'PREP') or contains(text(),'PRP')])
and
(preceding-sibling::element[1][./data[contains(text(),'NC')
or
contains(text(),'NOM')]])
and
(following-sibling::element[1][./data[contains(text(),'NC')
or
contains(text() ,'NOM')]])">

On cherche parmi les élément contenant la chaîne PRP, ceux qui sont précédés et suivis par un élément contenant la chaîne NOM.

     - Les requêtes lancées sur Cooktop ou XML Copy Editor
Scripts: (requete pour NOM.PRP.NOM)
              (requete pour NOM.ADJ)

Résultat


Résultats sur la rubrique traitée:
nom adj, (pour la rubrique A la une: ici)