Recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances

1. Extraction de patrons (avec Perl, XSLT et XQuery)

a) Solution n°1 : Pure PERL
Construire un programme perl pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec UDPIPE.
Fichiers en entrée : les textes bruts extraits et étiquetés via UDpipe.
Ce programme nécessite aussi un fichier de patrons

Ligne de commande pour lancer le programme :
perl script.pl result_udpipe patrons.txt > sortie.txt

b) Solution n°2 : XSLT/XPath
Construire une feuille de styles XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits au format XML
Fichiers en entrée : les textes étiquetés via Treetagger et via UDpipe dans la BàO2 (1 fichier XML par rubrique)

Ligne de commande pour lancer le programme :
xsltproc fichier.xsl fichier.xml > sortie.html

via Treetagger : un seule fichier XSLT pour tous les patrons morphosyntaxiques

via UDpipe : un fichier XSLT pour chaque patrons morphosyntaxique
NOM PREP NOM PREP


VERBE DET NOM
NOM ADJ
ADJ NOM
NOM NOM PREP
NOM VERBE ADV

c) Solution n°3 : XQuery

1. Sur les fichiers étiquetés avec treetagger et UDpipe (par rubrique a priori)
Construire une requête pour extraire les patrons morpho-syntaxiques (3208)
NOM ADJ
NOM PRP NOM

2. Comme précédemment, on essaiera de construire une requête XQuery pour extraire les patrons déjà présentés ci-dessus.
Construire une requête pour extraire les patrons morpho-syntaxiques (3208)
NOM PREP NOM PREP
VERBE DET NOM
NOM ADJ
NOM VERBE ADV
NOM PREP NOM
ADJ NOM

2. Extraction de relations de dépendance

a) Solution n°1 : avec XSLT
Construire une feuille de styles XSLT pour extraire la liste de mots connectés dans une relation de type OBJ
Ligne de commande pour lancer le programme :
xsltproc fichier.xslt fichier.xml > sortie.html

b) Solution n°2 : avec Xquery
Même question mais en construisant une requête Xquery
On essaiera en outre de compter et trier les différents couples (gouverneur, dépendant) produits.

c) Solution n°3 : avec Perl
Même question mais en construisant un script Perl
On essaiera en outre de compter et trier les différents couples (gouverneur, dépendant) produits.