ETAPE 3: Etiquetage

Pour étiqueter les textes alignés au niveau de mot, on crée une programme etiquetage.pl inspiré du projet boite à outils (semestre 2). En effet ce dernier étiquetait des textes contenus dans des fichiers XML. Celui fera la même chose avec des ficher TMX. Cependant, pas mal de modifications devront être effectuées pour celui ci. En effet les balises du fichier XML en sortie indiqueront pour chaque paragraphe, le texte, le numéro de paragraphe, la langue...

Avant l'étiquetage, il est nécessaire de mettre le texte complètement en minuscule afin de ne pas fausser l'étiquetage: TreeTagger a tendance à considérer tous les mots qui commencent par une majuscule par un nom propre. Ce qui n'est pas souvent le cas dans notre corpus. Pour normaliser la casse il suffira d'utiliser la commande tr "[:upper:]" "[:lower:]" (SHELL).

L'étiquetage s’effectue donc sur les fichiers TMX convertis en minuscule (alignement-anglais-japonais-1_minuscule.tmx et alignement-anglais-japonais-2_minuscule.tmx à l’aide de TreeTagger utilisant la librairie (english.par) et tokenize.pl (English version) et crée en sortie un fichier XML.

Après le traitement, on constate que les mots anglais sont étiquetés à peu près correctement. Cependant, les résultats de l’étiquetage du texte japonais ne sont pas satisfaisants. En effet, TreeTagger n’est pas capable de détecter les parties du discours du japonais. Mais cela n'interfère en rien l'alignement des 2 langues. Dans le fichier de sortie, les paragraphes anglais et japonais sont étiquetés un à un en alternant à chaque paragraphe la langue.

			
<XML>

<paragraphe 1 anglais>
<element> (mot1)
<element> (mot2)
....
</paragraphe>
<paragraphe 1 japonais>
<element> (mot1)
....
</paragraphe>
<paragraphe 2 anglais>
....
</XML>

On laisse donc la partie japonaise mal étiquetée et utilisons le résultat de l’étiquetage de la partie anglaise pour la prochaine étape.
Notons que l'on a quand même essayé d'étiqueter les textes japonais avec MeCab. Malgré les nombreux problèmes de comptabilité dus au système d'exploitation ou au codage, on a quand même réussi à faire fonctionner MeCab. Cependant l'étiquetage s'est avéré non seulement assez mauvais mais surtout a été étiqueté au niveau des morphèmes ce qui n'était pas très utile pour notre part... On a donc décidé de ne pas s'en servir.
Voici tout de même les résultats de ce qu'on a pu avoir: résultat1, résultat2.