Surlignage des syntagmes

Le script

Après avoir récupéré les syntagmes jugés pertinents pour établir une terminologie des "Droits de l'Homme", il a fallu ecrire un programme en Perl pour pouvoir les surligner dans le fichier aligné.

>> Voici le programme : (surligneur.pl)

Ce programme prend en entrée le fichier html aligné ainsi que les syntagmes dans un fichier texte (motif.txt). Le fichier html parcourt le fichier motif et à chaque fois qu'il rencontre un syntagme, il le surligne en jaune. Il donne en sortie un fichier html (fichier_surligne.html).

Problèmes rencontrés pour l'ensemble des langues

Encodage

Pour que les syntagmes soient reconnus dans le fichier motif, il a fallu utiliser le même encodage. En effet, avant que l'on se rende compte de ce problème, on remarquait que la plupart des syntagmes n'étaient pas surlignés. Par exemple, le "é" dans le fichier motif était codé "é" dans le fichier html -- le "é" étant représenté sur deux octets. Ainsi, il a fallu aussi respecter cet encodage dans le fichier motif en .txt et le convertir avant d'y insérer les syntagmes.

Alignement au niveau de la proposition

Dans les différentes langues, en raison des structures syntaxiques très diverses, il a fallu définir des syntagmes plus flous pour que les mises en correspondance se fassent. Les syntagmes sont donc décomposés différemment, ou parfois plus long que leur équivalent français.