BAO 3 - Extraction de patrons et de dépendances
Cette troisème boîte à outils consiste à extraire des patrons morphosyntaxiques et des relations
de dépenddances issus des étiquetages produits dans la BAO2.
Phase 1 : Patrons morphosyntaxiques
Patrons Morpho-syntaxiques :
- NOM PREP NOM PREP
- VERBE DET NOM
- NOM ADJ
- ADJ NOM
- PROPN VERB ADJ
- ADJ ADP NOUN
Etape 1 : Perl
Nous avons construit un programme perl pour extraire les patrons
morphosyntaxiques dans les étiquetages produits par UDpipe. Nous avons opté pour
le programme que nous avons réalisé en cours, et que nous avons légèrement modifié.
Programme Perl
Résultats :
Extraction des patrons morpho-syntaxiques, Rubrique - Livres / 3260
Extraction des patrons morpho-syntaxiques, Rubrique - Europe / 3214
Extraction des patrons morpho-syntaxiques, Rubrique - Cinéma / 3476
Extraction des patrons morpho-syntaxiques, Rubrique - Technologies / 651865
Etape 2 : Xslt
L'objectif est de construire une feuille de styles XSLT
pour extraire des patrons morphosyntaxiques dans les étiquetages produits au format XML,
que ce soit pour Treetagger et UDpipe
Résultats :
Feuille de style appliquée sur les fichiers annotés par Treetagger
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Livres / 3260
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Europe / 3214
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Cinéma / 3476
Patrons morpho-syntaxiques trouvés sur le fichier Treetagger Rubrique - Technologies / 651865
Feuille de style appliquée sur les fichiers annotés par UDPipe
Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Livres / 3260, fichier xml
Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Europe / 3214, fichier txt
Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Cinéma / 3476, fichier txt
Patrons morpho-syntaxiques trouvés sur le fichier UDPipe Rubrique - Technologies / 651865, fichier txt
Etape 3 : Xquery
LA troisième façon d'extraire ces patrons de former des requêtes Xquery dans les
étiquetages produits au format XML,
que ce soit pour Treetagger et UDpipe
Requêtes :
ADJ - ADP - NOM
ADJ - NOM
NOM - ADJ
NOM - ADP - NOM - ADP
PROPN - VERB - ADJ
VERB - DET - NOM
Résultats : Treetagger
Patrons morpho-syntaxiques dans la rubrique - Livres / 3260
Patrons morpho-syntaxiques dans la rubrique - Europe / 3214
Patrons morpho-syntaxiques dans la rubrique - Cinéma / 3476
Patrons morpho-syntaxiques dans la rubrique - Technologies / 651865
Résultats : Udpipe
Patrons morpho-syntaxiques dans la rubrique - Livres / 3260
Patrons morpho-syntaxiques dans la rubrique - Europe / 3214
Patrons morpho-syntaxiques dans la rubrique - Cinéma / 3476
Patrons morpho-syntaxiques dans la rubrique - Technologies / 651865
Phase 2 : Relations de dépendances de type "obj"
Sur les données annotées en dépendance (udpipe), nous avons crée trois solutions
pour extraire les items connectés dans une relation de dépendance donnée, c'est-à-dire,
tous les mots connectés à une relation "obj". Nous avons récupéré les solutions disponibles
sur Icampus, puis nous les avons modifiées pour coller à nos données.
Solution 1 : Xslt
Ici, nous avons extrait les données avec une feuille de style. Nous avons fait deux versions :
la première est la sortie brut de la feuille de style, et la seconde compte les différentes occurrences grâce
à la commande suivante : xsltproc relation_obj_udpipe.xsl sortie-udpipe-651865.txt.xml | sort | uniq -c | sort -gr > relation-obj-udpipe-651865-count.txt
Feuille de style
Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865 (Occurences)
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865
Solution 2 : Xquery
Requête Xquery
Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865
Solution 3 : Perl
Le programme Perl qui convertit le fichier Udpipe en XML
Conversion xml UDPipe
Extraction Perl
Relation de dépendance OBJ, UDPipe, Rubrique - Livres / 3260
Relation de dépendance OBJ, UDPipe, Rubrique - Europe / 3214
Relation de dépendance OBJ, UDPipe, Rubrique - Cinéma / 3476
Relation de dépendance OBJ, UDPipe, Rubrique - Technologies / 651865
Phase 3 : Des textes aux graphes
Pour conclure ce projet, nous avons décidé de nous pencher sur le programme patron2graph.exe
et l'appliquer sur quelques unes des données construites à l'issue de la BAO 3. Voici quelques
exemples issus du traitement de l'extraction des patrons morpho-syntaxiques, et plus particulièrement
sur le patron PROPN - VERB - ADJ. Nous avons utilisé les graphes pour voir si oui ou non, nous pouvons
déterminer le thème de la rubrique en passant par ces patrons.
Graphe n°1
Previous
Next
Rubrique Europe / Motif = doit => Voir les relations du mot “doit” car il
revenait souvent dans le patron.
Commande : wine ./patron2graphe "UTF-8" patrons-3260 motif-utf8.txt Nous avons tout d’abord choisi la rubrique Europe,
pour voir les mots les plus représentés, et à quels autres mots sont-ils liés.
Graphe 1
Graphe n°2
Previous
Next
Nous avons séparé les verbes à l’infinitif des verbes composés,
les noms de lieux et les autres entités nommées.
Nous pouvons constater que les verbes à l’infinitif sont surreprésentés,
ce qui est typique du style journalistique.
De plus, la plupart des verbes montrent qu’un registre politique
et/ou de loi est surtout employé : “maintenir”, “durcir”,
“agir”, “extrader”... Comme il s’agit de la rubrique Europe,
il est normale que la plupart des noms propres soient des noms de ville ou de pays.
Graphe 2
Graphe n°3
Previous
Next
Nous avons ensuite extrait le patron PROPN-VERB-ADJ de la rubrique Livres pour
le comparer avec le graphe de la rubrique Europe.
Il y a déjà beaucoup moins de résultats, ce qui fait que ces segments ne
sont pas vraiment représentatifs de la rubrique à laquelle ils appartiennent.
Il y a quelques noms d’auteurs ou de personnages, mais mis à part le verbe
“écrire”, ces mots pourraient appartenir à n’importe quelle des rubriques.
Graphe 3