Boite à Outil 2
Étiquetage
Après avoir réalisé l'extraction des balises titres et descriptions à l'aide l'algorithme de la Boîte à Outils 1, des rubriques Culture, Europe et Société nous arrivons donc à la Boîte à Outils 2. La deuxième boîte à outils permet d'étiquetter les fichiers produits par la BAO1.
La deuxième boîte à outils procède de la même manière que le premier sauf qu'il permet de faire de l'étiquetage morphosyntaxique avec TreeTagger sur les fichiers XML obtenus avec la BAO1. Pour cela, elle se sert d'un tokeniser en Perl (tokenise-utf8.pl) et d'un programme structurant en XML les rendus de l'étiquetage par TreeTagger (treetagger2xml-utf8.exe). En sortie, le script rend un fichier XML avec le contenu textuel entièrement étiqueté en tokens, lemmes et parties du discours.
Pour lancer le script :
BAO2.pl nom_du_répertoire nom_de_la_rubrique

Visualiser le script :