Explication : Qu'est ce qu'on veut faire ?

A l'issue de la BAO2 nous avons récolté nos données étiquetées avec lesquelles nous allons travailler dans la BAO3. La troisième étape de ce projet consiste donc à la recherche et l'extraction des patrons morphosyntaxiques ainsi que des relations de dépendances.

Les patrons morphosyntaxiques que nous allons extraire sont les suivants :

Version TreeTagger Version UDPipe
  • NOM/PRP/NOM/PRP
  • VER/DET/NOM
  • NOM/ADJ
  • ADJ/NOM
  • 2 patrons de longueurs 3 choisis :
    • NAM/NAM/VER
    • NAM/VER/VER
  • NOUN/ADP/NOUN/ADP
  • VERB/DET/NOUN
  • NOUN/ADJ
  • ADJ/NOUN
  • 2 patrons de longueurs 3 choisis :
    • PROPN/PROPN/VERB
    • PROPN/VERB/VERB

Les POS tagsets utilisés par TreeTagger et UDPipe ne sont pas exactement identiques mais nous utilisons bien des patrons équivalents.

Sur les données annotées en dépendance (udpipe), on essaiera ensuite de construire des ressources pour extraire les items connectés dans une relation de dépendance donnée (tous les mots connectés dans la relation OBJ).

Méthodes : Comment allons-nous procéder ?

Pour réaliser ces tâches, nous allons exploiter trois méthodes différentes : Perl, XQuery et XSLT.

Extraction des patrons morphosyntaxiques :

Ainsi, nous travaillons sur plusieurs sorties :

  1. La méthode Perl travaille sur la sortie XML de TreeTagger et la sortie CONLL de UDPipe.
  2. Les méthodes XSLT et XQuery se basent également sur la sortie XML de TreeTagger. Elles reposent aussi sur la sortie XML de UDPipe. Cette dernière peut être obtenue grâce au programme “udpipe2xml-version-sans-titrevdescription-v2.pl” contenu dans l’archive UDPipe.

perl ./Ressources/distrib-udpipe-1.2.0-bin/udpipe2xml-version-sans-titrevsdescription-v2.pl ./Resultats/Sorties_BAO2/sortieudpipe-slurp_rubrique.txt

Nous avons en sortie un fichier “sortieudpipe-slurp_rubrique.txt.xml” qui correspond à l’adaptation au format XML de la sortie CONLL initiale de UDPipe.

Extraction des relations en dépendance :

Dans les trois méthodes, l’extraction des couples GOUV/DEP en fonction de la relation recherchée s’effectue de manière similaire :

  1. On isole les phrases pour limiter la portée de recherche de la relation. Si nous ne le faisons pas, la recherche se fera sur plusieurs phrases, et non une seule, et les résultats donnés seront erronés.
  2. Pour chaque item de la phrase, nous vérifions s’il contient la relation recherchée.
  3. Si cela est le cas, nous récupérons en plus la forme et la position de l’item (c’est-à-dire du dépendant) et la position de son gouverneur.
  4. Après avoir déterminé si le gouverneur est avant ou après le dépendant, nous récupérons la forme du gouverneur.
  5. On imprime le couple GOUV/DEP équivalent à la forme du gouverneur et à la forme de l’item (dépendant).

Vous pouvez accéder aux différentes méthodes en cliquant sur les icônes ci-dessus.