Étiquetage avec Treetagger et Cordial

 

     Dans cette étape, l'objectif est d'étiqueter le texte à l'aide de Treetagger et Cordial.

 

Utilisation de Treetagger:

    A partir de script réalisé dans la boite à outils 1(parcours-arborescence-fichiers.pl), on a intégré le code suivant:

     system ("./Treetagger/bin/tree-tagger.exe -token -lemma -no-unknown ./Treetagger/lib/french.par toto.tmp toto.out");
     system ("perl ./Treetagger/treetagger2xml.pl toto.out");
     open (FILETMP, "toto.out.xml");
     while ($l=<FILETMP>) {
           if ($l!~/xml version/ && $l!~/ / && $l!~/ /) {
                 $DUMPFULL1.=$l;
           }
      }

 

     La première ligne du code:

     system ("./Treetagger/bin/tree-tagger.exe -token -lemma -no-unknown ./Treetagger/lib/french.par toto.tmp toto.out");

     Appel de la commande tree-tagger.exe à l'aide de la fonction prédéfinie de Perl: "system"

     tree-tagger s'exécute avec:

     -Les options: -token,  -lemma, et -no-unknown.

     -Le paramètre: french.par.

     -Le fichier d'entrée: toto.tmp (C'est le fichier qui contient les contenus textuels des balises traitées)

     -Le fichier de sortie: toto.out.)

     Le reste du code:

              system ("perl ./Treetagger/treetagger2xml.pl toto.out");
              open (FILETMP, "toto.out.xml");
              while ($l=<FILETMP>) {
                   if ($l!~/xml version/ && $l!~/ / && $l!~/ /) {
                            $DUMPFULL1.=$l;
                    }
              }

 Transforme la sortie du treetagger (toto.out) au format XML  à l'aide de programme donné treetagger2xml.pl

 Nous avons aussi insérer un code qui traite l'encodage des caractères accentués:

        $texte=$1;
        $texte=~s/&#38;#39;/\'/g;
        $texte=~s/&#233;/é/g;
        $texte=~s/&#38;#34;/\"/g;
        $texte=~s/&#38/\'/g;
        $texte=~s/&#34;/\'/g;
        $texte=~s/&#234;/ê/g;

 

 On lançant le script final  parcours2, on obtient le fichier de sortie SORTIE_Treetagger.xml. (Un extrait)

  Signalant enfin que la version Windows de Treetagger ne traite que les fichiers qui ne dépassent pas 200 mots.

   Utilisation de Cordial:

   Pour extraire les données textuelles des balises DESCRIPTION et TITLE dans un fichier TXT adapté au logiciel Cordial, nous avons utilisé le script parcour_cordial.pl. Le fichier obtenu ENTREE_CORDIAL.txt est soumis au logiciel Cordial ( étiqueteur morpho-syntaxique ( licence commerciale ) avec interface graphique, disponible uniquement pour Windows).

 Le résultat final après le traitement avec Cordial est un fichier étiqueté au format CNR: SORTIECORDIAL.cnr.