Présentation

Ce projet a été réalisé dans le cadre du cours Programmation et projet encadré assuré par Serge Fleury, Jean-Michel Daube et Rachid Belmouhoub.

L'objectif de ce projet est de mettre en œuvre une chaîne de traitements morphosyntaxiques à partir de données brutes multilingues vers des données structurées. Pour cela, on s'inspire des scripts conçus pendant le cours de Programmation et projet encadré, ainsi que des cours de Documents structurés pour la présentation des tableaux finaux.

On a choisi des corpus parallèles anglais-japonais sur le site GaijinPot.com. Pour éviter la polysémie, on effectue les traitements sur un corpus appartenant au domaine des ressources humaines. Après extraction des parties textuelles pour chacune des langues, on aligne les textes au niveau des paragraphes avec MkAlign. Ensuite, on étiquète le résultat à l'aide d'un programme Perl afin d'afficher en sortie, à l'aide d'une feuille de style XSLT, un tableau qui permettra une comparaison linguistique entre les deux langues. On en profitera pour créer, à partir du tableau, un petit lexique anglais-japonais sur les ressources humaines.