Boîte à outils 2 Retour

Sommaire:

I. Le programme d'étiquetage avec Treetagger :

a)Usage : perl   etiquette-avec-tree-tagger_mod.pl    nom du fichier xml

b) Entrée : un fichier xml contenant les textes à traiter.

c) Sortie : un document XML contenant les noms des fichiers sources et le résultat de l’étiquetage de leurs contenus .
(la sortie pour l’exemple fourni).

d) Source :le programme commenté est disponible ici .

Le code source au format texte est disponible ici.

I.1 Treetagger :

Treetagger est un étiqueteur basé sur les règles probabilistes, il a été conçu à
l’université de stuttgart par Achim Stein , son utilisation pour l’étiquetage des corpus
donne de très bons résultats, il permet de traiter une multitude de langues (dont
le français ), en plus il est disponible gratuitement ( télécharger ).

Le programme qui permet de transformer le résultat de l’étiquetage au format XML
a été légèrement modifié pour obtenir les noms des balises souhaitées.
( consulter le programme)

Haut de page

I.2 Fonctionnement du programme :

Les textes des balises « contenu »; dans le fichier XML obtenu a l’aide du programme
parcours-arborescence-fichiers, sont soumis à un ensemble de traitements pour avoir
En sortie un seul document XML contenant tous les résultats de l’étiquetage.

Les traitements sont :

a) Extraction des contenus : grâce a l’expression réguliere
~/([^<]*)<\/NOM>([^<]*)<\/CONTENU>/)
b) les entités sont remplacées par les valeurs qu’elles représentent, à l’aide la fonction Perl: chr().
exemple : chr(34)= ".
c) Etiquetage avec treetagger.
d) Transformation du résultat au format XML.
e) En fin, concatiner tous les résultats intermediares pour obtenir un seul document XML.

Le schéma suivant résume le fonctionnement du programme:
Haut de page

Haut de page

II. L’étiquetage avec Cordial :

Cordial n’est pas un simple étiqueteur, mais il permet de réaliser, en plus, une analyse
qui tient compte de la syntaxe et de la sémantique d’un texte, il est utilisé par beaucoup
d’industriels et d’universitaires à cause de sa précision et de son interface conviviale.

Le travail d’étiquetage avec Cordial a nécessité deux script perl :

Le programme d’extraction des contenus :

Usage : perl   contenu_Cordial.pl   fichier_xml_des_contenus
Entrée : le fichier xml obtenu avec le programme parcoursarborescencefichier .
Sortie : le texte contenu dans des balises description.
Source :le programme commenté est disponible ici.

Le code source au format texte est disponible ici.

Ce programme extrait les textes à l’aide d’une simple expression régulière et met le résultat dans fichier.
Le schéma suivant résume les étapes du travail:
Haut de page

III. Utilisation des outils :

1- Fichier d’entrée : Le fichier XML des contenus, obtenu à l’aide de la boite à outils1. ( L'arborescence minimale: 2005/)

2- Etiquetage avec treetagger :

Le fichier résultat au format XML
Le fichier résultat au format HTML.

3- Etiquetage avec Cordial :

Le fichier résultat au format XML
Le fichier résultat au format HTML.

Haut de page