Boîte à outils n°3 (BAO3)
Extraction de patrons ou de relations de dépendances
L'objectif de cette troisième partie est d'extraire les termes correspondants à un patron morphosyntaxique (ex : NOM ADJ) sur les données étiquetées et d'extraire les relations de dépendances.
Processus suivi pour extraire du contenu textuel à partir d'un patron souhaité
Le programme doit parcourir toutes les lignes du fichier xml obtenu en BAO2 une à une et vérifer si les 2 ou 3 POS coïncident avec le patron. Si oui, il imprime les formes associées.

Extraction de patron NOM ADJ avec PERL à partir du fichier.xml généré dans la BAO2
Le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :
Sur le terminal, la requête suivante a été lancée perl extraction-patron-2022.pl corpus-titre-description.xml NOM ADJ
En sortie, un fichier a été récupéré :

Extraction de patron NOM NOM
En sortie, un fichier a été récupéré :
Extraction de patron NOM PRP NOM
En sortie, un fichier a été récupéré :
Extraction des relations de dépendances avec PERL
Le script PERL qui a été utilisé pour transformer le fichier corpus-titre-description.udpipe en fichier xml est détaillé dans le lien ci-dessous :
Sur le terminal, la requête suivante a été lancée perl BAO3-udpipe2xml.pl corpus-titre-description.udpipe
En sortie, un fichier a été récupéré :

Pour récupérer les relations de dépendances, le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :
La requête suivante a été lancée sur le terminal est perl BAO3-extract-relation-udpipe.py corpus-titre-description.udpipe.xml "obj" > relations_dependance.txt
En sortie, un fichier a été récupéré :

Extraction de patron à l'aide du langage de programmation PYTHON
Un script PYTHON a été utilisé. Il est détaillé dans le lien ci-dessous :
Sur le terminal, la requête suivante a été lancée python BAO3-extraction-patron-python.py corpus-titre-description.xml NOM ADJ > pattern-NOM-ADJ.txt
En sortie, un fichier est récupéré :