Nous avons réalisé un script Perl pour annoter les contenus textuels extraits à partir de BAO1. Ce script prend en arguments le nom du fichier et la rubrique à exploiter : perl .pl parcours-arborescence-fichiers repertoire-a-parcourir, ici nous avons aussi choisi la rubrique 3208 ( une ) et 3260 ( livres )

La BAO2 reprend les mêmes étapes que la première et ajoute l'annotation. Pour pouvoir utiliser tree-tagger il faut d'abord tokenizer le texte, ce que nous faisons grâce au script utf8-tokenize.perl fourni par M. Fleury. Ensuite, le script fait appel à tree-tagger et udpipe afin d'annoter les titres et descriptions extraits. Après l'étiquetage il faut mettre en page la sortie tree-tagger en xml avec des balises, pour le faire on utilise le script treetagger2xml-utf8.pl fourni par M. Fleury.

Les sorties sont donc : un fichier txt contenant les titres et descriptions, un fichier txt contenant les titres et descriptions bien tokenizées par treetagger, un fichier txt contenant l'étiquetage par Udpipe, un fichier xml contenant les titres et descriptions et un dernier fichier xml contenant l'étiquetage de tree-tagger.

BAO2.pl

Le script pour tokeniser:

utf8-tokenize.perl

Le script mettant en page XML de tree-tagger:

treetagger2xml-utf8.pl

Résultats rubrique 3208 (une) :

sortie-3208.txt

sortie-treetagger-3208.txt

sortie-treetagger-3208.txt.xml

sortie-udpipe-3208.txt

sortiexml-3208.xml

Résultats rubrique 3260 (livres):

sortie-3260.txt

sortie-treetagger-3260.txt

sortie-treetagger-3260.txt.xml

sortie-udpipe-3260.txt

sortiexml-3260.xml