BAO 3 - Extraction de patrons et de dépendances

Cette troisème boîte à outils consiste à extraire des patrons morphosyntaxiques et des relations de dépenddances issus des étiquetages produits dans la BAO2.

Phase 1 : Patrons morphosyntaxiques


Patrons Morpho-syntaxiques :

- NOM PREP NOM PREP

- VERBE DET NOM

- NOM ADJ

- ADJ NOM

- PROPN VERB ADJ

- ADJ ADP NOUN


Etape 1 : Perl


Nous avons construit un programme perl pour extraire les patrons morphosyntaxiques dans les étiquetages produits par UDpipe. Nous avons opté pour le programme que nous avons réalisé en cours, et que nous avons légèrement modifié.


Programme Perl

Résultats :


Extraction des patrons morpho-syntaxiques, Rubrique - Livres / 3260
Extraction des patrons morpho-syntaxiques, Rubrique - Europe / 3214
Extraction des patrons morpho-syntaxiques, Rubrique - Cinéma / 3476
Extraction des patrons morpho-syntaxiques, Rubrique - Technologies / 651865

Etape 2 : Xslt


L'objectif est de construire une feuille de styles XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits au format XML, que ce soit pour Treetagger et UDpipe


Résultats :


Feuille de style appliquée sur les fichiers annotés par Treetagger


Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Livres / 3260
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Europe / 3214
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Cinéma / 3476
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Technologies / 651865




Feuille de style appliquée sur les fichiers annotés par UDPipe


Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Livres / 3260, fichier xml Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Europe / 3214, fichier txt
Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Cinéma / 3476, fichier txt
Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Technologies / 651865, fichier txt

Etape 3 : Xquery


LA troisième façon d'extraire ces patrons de former des requêtes Xquery dans les étiquetages produits au format XML, que ce soit pour Treetagger et UDpipe

Requêtes :


ADJ - ADP - NOM ADJ - NOM NOM - ADJ NOM - ADP - NOM - ADP PROPN - VERB - ADJ
VERB - DET - NOM

Résultats : Treetagger


Patrons morpho-syntaxiques dans la rubrique - Livres / 3260
Patrons morpho-syntaxiques dans la rubrique - Europe / 3214
Patrons morpho-syntaxiques dans la rubrique - Cinéma / 3476
Patrons morpho-syntaxiques dans la rubrique - Technologies / 651865


Résultats : Udpipe


Patrons morpho-syntaxiques dans la rubrique - Livres / 3260
Patrons morpho-syntaxiques dans la rubrique - Europe / 3214
Patrons morpho-syntaxiques dans la rubrique - Cinéma / 3476
Patrons morpho-syntaxiques dans la rubrique - Technologies / 651865


Phase 2 : Relations de dépendances de type "obj"

Sur les données annotées en dépendance (udpipe), nous avons crée trois solutions pour extraire les items connectés dans une relation de dépendance donnée, c'est-à-dire, tous les mots connectés à une relation "obj". Nous avons récupéré les solutions disponibles sur Icampus, puis nous les avons modifiées pour coller à nos données.


Solution 1 : Xslt


Ici, nous avons extrait les données avec une feuille de style. Nous avons fait deux versions : la première est la sortie brut de la feuille de style, et la seconde compte les différentes occurrences grâce à la commande suivante : xsltproc relation_obj_udpipe.xsl sortie-udpipe-651865.txt.xml | sort | uniq -c | sort -gr > relation-obj-udpipe-651865-count.txt


Feuille de style

Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865

Solution 2 : Xquery


Requête Xquery

Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865

Solution 3 : Perl




Le programme Perl qui convertit le fichier Udpipe en XML

Conversion xml UDPipe

Extraction Perl

Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865


Phase 3 : Des textes aux graphes


Pour conclure ce projet, nous avons décidé de nous pencher sur le programme patron2graph.exe et l'appliquer sur quelques unes des données construites à l'issue de la BAO 3. Voici quelques exemples issus du traitement de l'extraction des patrons morpho-syntaxiques, et plus particulièrement sur le patron PROPN - VERB - ADJ. Nous avons utilisé les graphes pour voir si oui ou non, nous pouvons déterminer le thème de la rubrique en passant par ces patrons.