BaO 3 - 2 | XSLT
Objectif :
L’objectif de cette troisième boîte à outils est de parcourir les fichiers étiquetés par TreeTagger et UdPipe générés lors de la BàO2 et d'en extraire des patrons morpho-syntaxiques via différentes méthodes de traitement automatique. Ici nous utiliserons la méthode Xslt.
XSLT (eXtensible Stylesheet Language Transformations), défini au sein de la recommandation XSL du W3C, est un langage de transformation XML de type fonctionnel. Il permet notamment de transformer un document XML dans un autre format, tel PDF ou encore HTML pour être affiché comme une page web ou bien du XML incluant des tables de matières ou des règles de formatage XSL.
Les 4 patrons morpho-syntaxiques à extraire obligatoires sont les suivants :
- NOM PREP NOM PREP
- VERBE DET NOM
- NOM ADJ
- ADJ NOM
Les 2 patrons morpho-syntaxiques choisis par nos soins sont les suivants :
- NOM PREP ADJ
- PREP DET NOM
Voici les feuilles XSLT :
ADJ-NOM NOM-ADJ NOM-PREP-ADJNOM-PREP-NOM-PREP PREP-DET-NOM VERB-DET-NOM
Résultats :
Rubrique | ADJ NOM | NOM ADJ | NOM PREP ADJ | NOM PREP NOM PREP | PREP DET NOM | VERBE DET NOM |
---|---|---|---|---|---|---|
A la une (3208) | sortie | sortie | sortie | sortie | sortie | sortie |
Société (3224) | sortie | sortie | sortie | sortie | sortie | sortie |
Culture (3246) | sortie | sortie | sortie | sortie | sortie | sortie |
Cinéma (3476) | sortie | sortie | sortie | sortie | sortie | sortie |
La relation de dépendance à extraire est la relation 'obj' :
Voici la feuille de style
Feuille de style OBJRubrique | OBJ |
---|---|
A la une (3208) | sortie |
Société (3224) | sortie |
Culture (3246) | sortie |
Cinéma (3476) | sortie |