Boîte à outils 3 | Retour |
Sommaire:
|
---|
Étant donné des textes étiquetés à l’aide d’un outil comme Treetagger ou Cordial, le but est
de localiser puis d’extraire des suites de termes dont les catégories morphosyntaxiques sont
conformes à des listes de patrons préétablies.
Pour atteindre cet objectif, on réalise un script Perl qui prend en entrée le texte étiqueté
et un fichier des patrons, puis produit en sortie un fichier contenant la liste des termes.
a)Usage : perl trouve_Treetagger.pl fichier_texte_étiqueté fichier_des_patrons_Treetagger > fichier_résultat
b) Entrées : Exemple de fichier de patrons Treetagger:
Pour trouver toutes les suites (adjectif, nom) et ( nom, adjectif), on crée un fichier des patrons contenant les deux lignes:
NOM ADJ
ADJ NOM
c) Sortie : Un fichier contenant les termes recherchés.
d) Source :Le programme commenté est disponible ici .
Le code source au format texte est disponible ici.
Pour réaliser l’extraction des termes a partir des textes étiquetés avec Cordial, le programme
précèdent a été légèrement modifié.
a)Usage : perl trouve_Cordial.pl fichier_texte_étiqueté fichier_des_patrons_Cordial > fichier_résultat
b) Entrées : Exemple de fichier de patrons Cordial:
Pour trouver toutes les suites (adjectif, nom) et ( nom, adjectif), on crée un fichier des patrons contenant les deux lignes:
NC[A-Z]+   ADJ[A-Z]+
  ADJ[A-Z]+   NC[A-Z]+
L’expression régulière [A-Z]+ est utilisée pour prendre en compte tous les types de noms ou
adjectifs. Par exemple, pour les noms: NCFS, NCFP, NCSIG …etc.
c) Sortie : Un fichier contenant les termes recherchés.
d) Source :le programme commenté est disponible ici (les ligne modifiées sont en vert).
Le code source au format texte est disponible ici.
On extrait les termes et leurs catégories à partir du texte étiqueté, on les range dans deux
tableaux différents, puis on transforme le tableau des patrons en une chaîne de caractères
(la fonction perl « join »), puis à l’aide d’une expression régulière on délimite avec la chaîne "1"
toutes les suites de patrons recherchées. Pour extraire les termes, il suffit d’accéder à la position
correspondante dans le tableau des termes.
En utilisant la procédure recuperer(), on relie "trouve_Treetagger.pl" et le programme développé
Localiser toutes les suites (adjectif, nom) et ( nom, adjectif), donc le fichier des patrons contient
les deux lignes:
ADJ NOM
NOM ADJ.
Le programme a été modifié pour produire un résultat au format html.
Localiser toutes les suites (déterminant, nom) et ( préposition ,nom), donc le fichier des patrons contient
les deux lignes:
DET[:a-zA-Z]* NOM
PRP[:a-zA-z]* NOM .
Le résultat au format html.
Localiser toutes les suites (adjectif, nom) et ( nom, adjectif), donc le fichier des patrons contient
les deux lignes:
ADJ[A-Z]+ NC[A-Z]+
NC[A-Z]+ ADJ[A-Z]+.
Le programme a été modifié pour produire un résultat au format html.
Localiser toutes les suites (déterminant, nom) et ( préposition ,nom), donc le fichier des patrons contient
les deux lignes:
DET[A-Z]+ NC[A-Z]+
PREP NC[A-Z]+
.
Le résultat au format html.
Localiser toutes les suites (déterminant, nom,verbe) et ( préposition , nom, verbe), donc le fichier des patrons contient
les deux lignes:
DET[A-Z]+ NC[A-Z]+ V[A-Z]+
PREP NC[A-Z]+ V[A-Z]+
Le résultat au format html.