Objectif
Lemmatiser la surface obtenue avec la BAO1 et l'annoter (lui attribuer des étiquettes morphosyntaxiques).

Procédure d'étiquetage

On reprend le script de la bao1 et on ajoute une nouvelle procédure qui va utiliser l'outil TreeTagger pour étiqueter les titres et descriptions. C'est ce contenu étiqueté qui ira dans le fichier de sortie xml pour la surface.

Cette procédure nécessite plusieurs fichiers, ceux de TreeTagger qu'on télécharge sur le site de l'étiqueteur, un fichier french-utf.par récupéré sur Icampus et 2 scripts perl (tokenise-utf8.pl et treetagger2xml-utf8.pl).

La procédure retourne le titre et la description étiquetés. Elle prend en arguments un titre et une description, on attribue leurs valeurs respectives à 2 variables : $t et $d.

Pour étiqueter le titre, on crée un fichier temporaire qui contient $t. Puis, on utilise la fonction system de perl qui permet de lancer une ligne de commande comme sur le terminal depuis le script :
system("tokenise-utf8.pl | ./bin/tree-tagger -token -lemma -no-unknown french-utf8.par > titre_tag.txt");)

On lance le script tokenise-utf8.pl (également avec system) sur le fichier temporaire pour obtenir les tokens(mots) des titres, ce fichier tokenisé est ensuite étiqueté par le programme treetagger, on redirige les résultats produits par treetagger dans un fichier titre_tag.txt.

On utilise ensuite le script treetagger2xml.pl pour transformer le fichier titre_tag.txt au format xml.

On procède de la même façon pour l'étiquetage de la description.

Appel de la procédure

Pour que le fichier de sortie xml de la surface contienne les titres et descriptions étiquetés, on appelle la procédure d'étiquetage dans la procédure de parcours de l'arborescence (voir bao1) :

Résultat

On obtient alors un fichier comme celui-ci :

Etiquetage des fichiers de sortie .txt avec Cordial

Pour étiqueter les fichiers de sortie txt produits par la bao1, on utilise le logiciel Cordial.

Il faut encoder les fichiers en ANSI pour pouvoir utiliser Cordial. Une fois la conversion faite, on choisit les paramètres comme suit :

On obtient un fichier comme celui-ci :

Scripts

Télécharger le script de la bao2.

Fichiers étiquetés par treetagger :
rubrique Culture (xml)
rubrique International (xml)

Fichier étiqueté par Cordial :
rubrique International (xml)