Boîte à Outils 2

La BÀO 2 consiste à étiqueter les tokens de deux sorties de la BàO 1. Pour ce faire, soit on modifie le script pour produire un fichier XML qui contient le contenu étiquetté en utilisant le programme Treetagger (un outil qui permet de srgmenter les mots d'un corpus qu'on lui fournit et d'ammoter les tokens obtenus avec des étiquettes morpho-syntaxiques), soit on utilise le logiciel Cordial pour étiqueter le fichier TXT produit par BàO1.

Pour faciliter notre projet, on combine le BàO 1 et le démarche Treetagger de Bào 2 en changeant les scripts de BàO 1, pour produit le fichier XML d'étiquettage et en même temps le fichier text qui va nourir la logiciel Cordial. Donc comme le BàO 1, il y a aussi deux méthode de le réaliser, avec l'expression régulière ou avec RSS:XML. Et puisque les deux cripts se resemblent beaucoup, ici je ne montre que le script de l'expression régulière, vous pouvez trouver l'autre script dans en téléchargeant le dossier au fond de la page.

Scrpt REGEX :



Après l'exécution en cygwin, on obtient le fichier XML étiquetté (le fichier est trop grand pour être affiché sur le site, ci-dessous c'est une image d'une partie de fihier XML étiquetté de rubrique 3208, pour regarder les fichiers XML et TXT totaux, cliquez sur l'icône au de sous de l'image):




Une fois on obtient tous les résultat de XML étiquetté sur tous les rubriques, on a fini le première méthode, et on va donc passer à la méthode de Cordial. Pour fonctionner le Cordial sur notre fichier TXT, il faut que l'on transforme le fichier en l'encodage de ISO 8859-1. Après avoir chargé le fichier, on fait fonctionner le logiciel Cordial sur notre fichier TXT en changeant le paramètre:

Cette logiciel nous fournit un fichier CNR que l'on va utiliser pour le BàO 3: