Projet Encadré.

BàO 3: "Extraction de patrons"

Nous allons ensuite extraire des patrons morphosyntaxiques à partir des fichiers obtenus avec la boîte à outils 2.

Script #1 en PERL : BAO3_extraction_patrons.pl

Commande afin de lancer le script : perl BAO3_extraction_patrons.pl "fichier XML" "patron recherché".

Nous avons recherché les patrons suivants :

    NOM ADJ
    ADJ NOM
    VER:pres DET:ART NOM
    PRP PRP:det NOM
    PRO:PER VER:pres VER:pper
    NOM PRP NOM PRP


Nous obtenons donc les fichiers suivants :

NOM ADJ | ADJ NOM | VER:pres DET:ART NOM | PRP PRP:det NOM | PRO:PER VER:pres VER:pper | NOM PRP NOM PRP



Script #2 en PERL : extract-relation-udpipe.pl

Il faudrait d'abord convertir le fichier udpipe vers un corpus étiqueté avec udpipe en format XML, avec la commande perl udpipe2xml.pl titre-description.udpipe. Ensuite, pour extraire des items qui sont reliés selon une relation de dépendance, nous pouvons lancer la commande perl extract-relation-udpipe.pl titre-description.udpipe.xml "nom de relation" > "sortie_nom de relation.txt"

Nous avons recherché les relations suivants :

    aux
    cop
    det
    nummod
    obl
    subj


On obtient les résultats suivants:

Six fichiers avec les relations recherchées, que l'on a ensuite compté les occurrences et trié les résultats.

aux | cop | det | nummod | obl | subj



Script #3 en Python : BAO3_extraction_patron.py

Ce fichier sert à extraire des patrons morphosyntaxiques à l'aide de Python. Commande afin de lancer le script : python3 BAO3_extraction_patron.py "fichier XML" "patron recherché" > "sortie_txt".

Nous avons recherché les patrons suivants :

    NOM ADJ
    ADJ NOM
    VER:pres DET:ART NOM
    PRP PRP:det NOM
    PRO:PER VER:pres VER:pper
    NOM PRP NOM PRP


On obtient les résultats suivants:

Six fichiers avec les patrons recherchés, avec toutes les occurrences de ces patrons.

NOM ADJ | ADJ NOM | VER:pres DET:ART NOM | PRP PRP:det NOM | PRO:PER VER:pres VER:pper | NOM PRP NOM PRP








  • © Mohamad Quzairie TALIB. All rights reserved