BaO 3 - 2 | XSLT

Objectif :

L’objectif de cette troisième boîte à outils est de parcourir les fichiers étiquetés par TreeTagger et UdPipe générés lors de la BàO2 et d'en extraire des patrons morpho-syntaxiques via différentes méthodes de traitement automatique. Ici nous utiliserons la méthode Xslt.

XSLT (eXtensible Stylesheet Language Transformations), défini au sein de la recommandation XSL du W3C, est un langage de transformation XML de type fonctionnel. Il permet notamment de transformer un document XML dans un autre format, tel PDF ou encore HTML pour être affiché comme une page web ou bien du XML incluant des tables de matières ou des règles de formatage XSL.

Les 4 patrons morpho-syntaxiques à extraire obligatoires sont les suivants :

  • NOM PREP NOM PREP
  • VERBE DET NOM
  • NOM ADJ
  • ADJ NOM

Les 2 patrons morpho-syntaxiques choisis par nos soins sont les suivants :

  • NOM PREP ADJ
  • PREP DET NOM

Voici les feuilles XSLT :

ADJ-NOM NOM-ADJ NOM-PREP-ADJ
NOM-PREP-NOM-PREP PREP-DET-NOM VERB-DET-NOM

Résultats :

Rubrique ADJ NOM NOM ADJ NOM PREP ADJ NOM PREP NOM PREP PREP DET NOM VERBE DET NOM
A la une (3208) sortie sortie sortie sortie sortie sortie
Société (3224) sortie sortie sortie sortie sortie sortie
Culture (3246) sortie sortie sortie sortie sortie sortie
Cinéma (3476) sortie sortie sortie sortie sortie sortie

La relation de dépendance à extraire est la relation 'obj' :

Voici la feuille de style

Feuille de style OBJ

Rubrique OBJ
A la une (3208) sortie
Société (3224) sortie
Culture (3246) sortie
Cinéma (3476) sortie