Etiquetage

La BÀO 2 consiste à étiqueter les termes de deux sorties de la BÀO 1.

Pour étiqueter la sortie en format xml, on utilise le Treetagger en l'ajoutant dans notre script, tandis qu'on utilise le logiciel Gordial pour étiqueter le fichier en format txt.

Cordial

Ce logiciel ne traite que les textes codés en iso. On doit donc convertir le fichier txt qui est en utf-8 en iso.

Après avoir chargé le fichier, on peut obtenir le résultat qu'on veut en changeant le paramètre.

Voici le paramétre :

example graphic

On obtient un fichier avec l'extention ".cnr". Il y a trois colonne : le token, le lemme et la catégorie gramatical.

Treetagger

Préparations avant de commencer :

le fichier de langue
le programme "tokenise-utf8.pl" : segmenter le fichier en tokens
le programme "treetagger2xml-utf-8.pl" : réécrire un fichier en format xml

Comment on peut insérer le sous-programme de l'étiquetage dans notre script existant?

1. On insérer un sous programme de l’étiquetage dans le programme qui fait le parcours de l’arborescence et l’extraction.
2. On met tous les titre dans un fichier temporaire et utilise les programmes fournis par le prof pour étiqueter un par un les titres. Le résultat est temporairement sauvegardé dans un nouveau fichier.
3. Insérer les titres étiquetés dans le fichier xml.
4. Il faut faire attention qu’on ne traite pas la première ligne de fichier xml qui fait la déclaration.
5. On fait la même chose pour la description.

Téléchargement