Extraction de patrons

1. Objectif

Maintenant que nous avons pu étiqueter en format XML les contenus textuels des différentes rubriques, nous souhaitons pouvoir travailler sur ces informations rendues disponibles en extrayant des patrons de séquences de POS ou encore des termes étant liés par certains relations de dépendance syntaxique.


2. Exctraction de patrons

Dans un premier temps, nous avons cherché à récupérer différents patrons en fonction des annotations en POS. Voici ceux sur lesquels nous nous sommes concentrées :

  • NOM ADJ
  • ADJ NOM
  • VERBE DET NOM
  • NOM AUX VERBE
  • NUM NOM ADJ
  • NOM PREP NOM PREP

Étant donné que, comme nous l'avons précisé, chaque étiqueteur a sa propre norme de traitement, la forme prise par les données annotées avec TreeTagger diffère de celle prise par les données annotées avec UD Pipe. Il nous faudra donc être attentives à nos données et bien les observer pour mettre en place nos requêtes, et ces dernières prendront une forme différente selon que l'on travaille avec les fichiers produits par l'un ou l'autre des étiqueteurs.

2.1 Première solution : XSLT

Nous avons tout d'abord travaillé avec XSLT afin de pouvoir maîtriser les requêtes comme l'affichage des résultats produit. Voici les feuilles de style construites pour chacun des étiqueteurs ainsi que les résultats textuels obtenus.

PATRONS TREETAGGER
PATRONS UDPIPE

Afin de mieux visualiser les résultats en question, nous avons construit une nouvelle feuille de style permettant d'afficher les différents résultats dans un tableau html, cette fois uniquement avec UD Pipe puisque les résultats produits auraient été supposément les mêmes.

TABLEAUX PATRONS UDPIPE

2.2 Deuxième solution : XQuery

La requête xquery Utilise les frères du premier élément du patron. On cherche à chaque fois les noeuds qui succèdent à la première catégorie.

PATRONS TREETAGGER
PATRONS UDPIPE

3. Exctraction de relations de dépendance

Nous nous sommes ensuite intéressées aux relations syntaxiques présentes entre les différents items, et plus spécifiquement à la relation syntaxique objet. Pour cette partie, nous avons uniquement travaillé avec les fichiers annotés avec UD Pipe, qui nous permettaient de récupérer les informations concernant les liens entre dépendants et gouverneurs.

3.1 Première solution : XSLT

Une nouvelle fois, XSLT permettait la construction de telles requêtes. Voici ci-dessous les fichiers de recherche et de résultats produits.

DEPENDANCE OBJ UDPIPE

3.2 Deuxième solution : XQuery

Là encore, on se sert des frères du premier noeud, mais on rajoute on condition if pour prendre compte des positions de chaque élément.

DEPENDANCE OBJ UDPIPE avec XQUERY