Boîte à outils 3

Sommaire:

L’extraction terminologique.

Utilisation de Treetagger .

Utilisation de Cordial.

Fonctionnement du programme.

Exemples d'application.

I. L’extraction terminologique :

Étant donné des textes étiquetés à l’aide d’un outil comme Treetagger ou Cordial, le but est
de localiser puis d’extraire des suites de termes dont les catégories morphosyntaxiques sont
conformes à des listes de patrons préétablies.
Pour atteindre cet objectif, on réalise un script Perl qui prend en entrée le texte étiqueté
et un fichier des patrons, puis produit en sortie un fichier contenant la liste des termes.

II. Le programme d’extraction :

II.1 Étiquetage avec Treetagger :

a)Usage : perl trouve_Treetagger.pl fichier_texte_étiqueté fichier_des_patrons_Treetagger > fichier_résultat

b) Entrées :

Un fichier contenant le résultat de l’étiquetage avec Treetagger
Le fichier des patrons morphosyntaxiques Treetagger.

   Exemple de fichier de patrons Treetagger:

   Pour trouver toutes les suites (adjectif, nom) et ( nom, adjectif), on crée un fichier des patrons contenant les deux lignes:
    NOM ADJ
    ADJ NOM

c) Sortie : Un fichier contenant les termes recherchés.

d) Source :Le programme commenté est disponible ici .

Le code source au format texte est disponible ici.

Haut de page

II.2 Étiquetage avec Cordial:

Pour réaliser l’extraction des termes a partir des textes étiquetés avec Cordial, le programme
précèdent a été légèrement modifié.

a)Usage : perl trouve_Cordial.pl fichier_texte_étiqueté fichier_des_patrons_Cordial > fichier_résultat

b) Entrées :

Un fichier contenant le résultat de l’étiquetage avec Cordial.
Le fichier des patrons morphosyntaxiques Cordial .

Exemple de fichier de patrons Cordial:

   Pour trouver toutes les suites (adjectif, nom) et ( nom, adjectif), on crée un fichier des patrons contenant les deux lignes:
    NC[A-Z]+   ADJ[A-Z]+
   ADJ[A-Z]+   NC[A-Z]+
  L’expression régulière [A-Z]+ est utilisée pour prendre en compte tous les types de noms ou
  adjectifs. Par exemple, pour les noms: NCFS, NCFP, NCSIG …etc.

c) Sortie : Un fichier contenant les termes recherchés.

d) Source :le programme commenté est disponible ici (les ligne modifiées sont en vert).

Le code source au format texte est disponible ici.

III. Fonctionnement du programme:

On extrait les termes et leurs catégories à partir du texte étiqueté, on les range dans deux
tableaux différents, puis on transforme le tableau des patrons en une chaîne de caractères
(la fonction perl « join »), puis à l’aide d’une expression régulière on délimite avec la chaîne "1"
toutes les suites de patrons recherchées. Pour extraire les termes, il suffit d’accéder à la position
correspondante dans le tableau des termes.

Haut de page

Le schéma suivant résume le fonctionnement du programme:

Haut de page

En utilisant la procédure recuperer(), on relie "trouve_Treetagger.pl" et le programme développé
pour la boite à outils2, pour réaliser, à chaque fois, l’extraction des termes juste après l’étiquetage
de chaque partie.

IV. Exemples d'utilisation:

IV.1 Étiquetage avec Treetagger:

Exemple 1:

Localiser toutes les suites (adjectif, nom) et ( nom, adjectif), donc le fichier des patrons contient
les deux lignes:
ADJ NOM
NOM ADJ.

Le programme a été modifié pour produire un résultat au format html.

Exemple 2:

Localiser toutes les suites (déterminant, nom) et ( préposition ,nom), donc le fichier des patrons contient
les deux lignes:
DET[:a-zA-Z]* NOM
PRP[:a-zA-z]* NOM .
Le résultat au format html.

IV.2 Étiquetage avec Cordial:

Exemple 1:

Localiser toutes les suites (adjectif, nom) et ( nom, adjectif), donc le fichier des patrons contient
les deux lignes:
ADJ[A-Z]+ NC[A-Z]+
NC[A-Z]+ ADJ[A-Z]+.
Le programme a été modifié pour produire un résultat au format html.

Exemple 2:

Localiser toutes les suites (déterminant, nom) et ( préposition ,nom), donc le fichier des patrons contient
les deux lignes:
DET[A-Z]+ NC[A-Z]+
PREP NC[A-Z]+
.
Le résultat au format html.

Exemple 3:

Localiser toutes les suites (déterminant, nom,verbe) et ( préposition , nom, verbe), donc le fichier des patrons contient
les deux lignes:
DET[A-Z]+ NC[A-Z]+ V[A-Z]+
PREP NC[A-Z]+ V[A-Z]+
Le résultat au format html.

Haut de page