Navigation


Objectif de la BàO2

Boîte à outil 2 récupère d'abord des fichiers xml crées par la première boîte. Puis on étiquète ces fichiers avec une part Cordial, et une autre part Treetagger pour obtenir des fichiers qui contiennent FORME / CATEGORIE / LEMME.


Cordial

Il prend en entrée un fichier en format texte (texte brut), et en sortie, il génère un nouveau fichier en format cnr avec 3 colonnes correspondant à forme, lemme et catégorie.

Ici pour téléchanrger le programme.

L'étiquetage avec cordial est fait manuellement. Pour lancer Cordial, on le paramètre comme ceci:


Treetagger

On modifie le script de parcours d’arborescence des fils RSS pour étiqueter les contenus textuels. En sortie, le fichier est en format XML.

Treetagger s'utilise en ligne de commande :

tree-tagger [options] <parametres> <textein> <texteout>
<parametres> : le fichier paramètre
<textein> : le texte en entrée, à étiqueter (avec un mot par ligne).
<texteout> : le nom du fichier qu’il va générer en sortie.

    Options:
-token: afficher les tokens
-lemma: afficher les lemmes
-no-unknown: ne pas afficher si le lemme n'est pas connu, étiqueté unknown

Il prend en entrée un fichier texte contenant un mot par ligne, et crée un fichier *.xml en sortie.
1) La tokenisation est faite avec un programme Perl (tokenise-fr.pl).
2) L'appel du programme tree-tagger.exe se fait avec la fonction de Perl "systèm".
3) La conversion des données en sortie un fichier XML avec un programme Perl (treetagger2xml.pl).

    Reformatage du résultat :

system ("perl ./treetagger-win32/cmd/tokenise-fr.pl toto.txt | treetagger-win32/bin/tree-tagger.exe treetagger-win32/lib/french.par -lemma -token -no-unknown > ./RESULTAT/texte_d_etiquetage.txt");

Ici pour télécharger le Script

Résultat

* Cordial *

* Treetagger *