Étiquetage avec Treetagger et Cordial
Dans cette étape, l'objectif est d'étiqueter le texte à l'aide de Treetagger et Cordial.
Utilisation de Treetagger:
A partir de script réalisé dans la boite à outils 1(parcours-arborescence-fichiers.pl), on a intégré le code suivant:
system ("./Treetagger/bin/tree-tagger.exe -token -lemma -no-unknown ./Treetagger/lib/french.par
toto.tmp toto.out");
system ("perl ./Treetagger/treetagger2xml.pl
toto.out");
open (FILETMP, "toto.out.xml");
while ($l=<FILETMP>) {
if ($l!~/xml
version/ && $l!~/ / && $l!~/ /) {
$DUMPFULL1.=$l;
}
}
La première ligne du code:
system ("./Treetagger/bin/tree-tagger.exe -token -lemma -no-unknown ./Treetagger/lib/french.par toto.tmp toto.out");
Appel de la commande tree-tagger.exe à l'aide de la fonction prédéfinie de Perl: "system"
tree-tagger s'exécute avec:
-Les options: -token, -lemma, et -no-unknown.
-Le paramètre: french.par.
-Le fichier d'entrée: toto.tmp (C'est le fichier qui contient les contenus textuels des balises traitées)
-Le fichier de sortie: toto.out.)
Le reste du code:
system ("perl ./Treetagger/treetagger2xml.pl toto.out");
open (FILETMP, "toto.out.xml");
while ($l=<FILETMP>) {
if ($l!~/xml version/ && $l!~/ / && $l!~/ /) {
$DUMPFULL1.=$l;
}
}
Transforme la sortie du treetagger (toto.out) au format XML à l'aide de programme donné treetagger2xml.pl
Nous avons aussi insérer un code qui traite l'encodage des caractères accentués:
$texte=$1;
$texte=~s/&#39;/\'/g;
$texte=~s/é/é/g;
$texte=~s/&#34;/\"/g;
$texte=~s/&/\'/g;
$texte=~s/"/\'/g;
$texte=~s/ê/ê/g;
On lançant le script final parcours2, on obtient le fichier de sortie SORTIE_Treetagger.xml. (Un extrait)
Signalant enfin que la version Windows de Treetagger ne traite que les fichiers qui ne dépassent pas 200 mots.
Utilisation de Cordial:
Pour extraire les données textuelles des balises DESCRIPTION et TITLE dans un fichier TXT adapté au logiciel Cordial, nous avons utilisé le script parcour_cordial.pl. Le fichier obtenu ENTREE_CORDIAL.txt est soumis au logiciel Cordial ( étiqueteur morpho-syntaxique ( licence commerciale ) avec interface graphique, disponible uniquement pour Windows).
Le résultat final après le traitement avec Cordial est un fichier étiqueté au format CNR: SORTIECORDIAL.cnr.