Nous avons vu que la BAO1 génère un fichier txt écris en sortie sur deux types de fichiers : txt et XML. Nous allons donc maintenant passer aux étiquetages.
C'est bien joli tout ça, mais on en fait quoi après ? Ça, on le verra dans la BAO3 où on utilisera des patrons, mais c'est une autre histoire.
Étiquetage avec treetaggerNotre Boite à Outils 2, consiste tout d’abord à compléter notre script précédant : Nous allons y intégrer le script d’étiquetage avec Treetagger. Avec ce script nous allons pouvoir parcourir l’arborescence,nous allons extraire le contenu textuel de la rubrique que nous avons choisi :

l’étiqueter avec Treetagger et au final l’écrire dans un fichier de sortie XML.

Donc, notre texte va etre étiqueté en sortie XML.
Voici le scriptVoici les fichiers de résultats :
3208.txt3208.xml
3210.txt
3210.xml
3224.txt
3224.xml
Nous voyons que les fichiers txt qui ont été générés sont encodé en utf-8. Nous avons vu en cours que pour pouvoir les charger dans le logiciel cordial, il faut d’abord les encoder en ISO-8859-1. Cependant, lorsque nous avons utilisé cet encodage, nous avons obtenu des résultats mal-encodés, c’ést-à-dire avec des caractères mal-affichés. Nous avons donc essayé d’utiliser l’encodage en ANSI et cette-fois ci nous avons obtenu de bons résultats !
