PROJET BOITE A OUTILS
créé par Nadia Makouar & Maria Doganova
Langues O'


Etiquetage avec Treetagger et Cordial

Une fois les fichiers filtrés et les textes obtenus, nous allons maintenant procéder à son étiquetage. Pour cela, nous testons les deux programmes cités précédemment à savoir Treetagger et Cordial. L'un se fait en ligne de commande (Treetagger), l'autre à travers une interface graphique.

TREETAGGER

Treetagger est un programme développé par Helmut Schmid de l'Université de Stuttgart. Cet outil permet d'étiqueter les parties du discours. Il intègre aussi des modules de tokénisation et de lemmatisation.

Appel du programme
L'appel se fait via la commande system en Perl. Toutes les commandes peuvent être séparées d'un "pipe" dans le même script.

1.Tokenisation et Programme Treetager

Pour pouvoir tokeniser notre texte, nous utilisons un autre programme en Perl (tokenize.pl). Ce programme qui sera utilisé par Treetager, segmente le texte en tokens (un token par ligne). Après la tokénisation du texte, Treetagger.exe prend directement en entrée les fichiers générés selon la commande suivante: system ("perl tt/tokenise-fr.pl xml1/$nomfichier | tt/bin/tree-tagger.exe tt/lib/french.par -lemma -token -sgml > ttt/$nomfichier ");
Le programme tokenize.pl est suivi du paramètre xml1/$nomfichier qui est le dossier d'entrée contenant les fichiers au format txt à tokéniser ($nomfichier). Le nom de l'étiqueteur est lui aussi suivi de paramètres:

-token imprime les mots graphiques
-lemma imprime les lemmes
-no-unknown précise que le mot soit imprimé à la place du lemme, au cas où celui-ci n'a pas pu être déterminé quant à french.par il s'agit du fichier contenant le lexique et les paramètres spécifiques à la langue française.
Voici le fichier de sortie taggé de "A_la_Une.txt" stocké dans ttt ici
Suite>>