Projet Multilingue - v.1.0

Partie Corpus 1

Page Suivante

Avant toutes choses, explicitons le but de ce présent projet :
Il a pour but de détecter dans un corpus bilingue les formes du conseil. Mais pour ce faire, il est un élément indispensable : le corpus !

En effet, nous avons besoin d'un corpus de référence sur lequel nous travaillerions pour relever les formes dans une langue puis dans l'autre ou vice versa. A cette fin, nous avons cherché et trouvé le site http://hrclub.gaijinpot.com/ qui est un site bilingue japonais-anglais portant sur les ressources humaines et les emplois au Japon.

La source ainsi trouvée, nous avons effectué une première sélection et avons donc téléchargé les pages en anglais qui nous intéressaient de façon récursive grâce à la commande shell wget.
Malheureusement, les pages en japonais étant affichées sur le site grâce à un script javascript, il ne fût pas possible de les télécharger grâce au wget. Toutefois, nous avons pris la peine de les télécharger à la main.

Voici la liste des pages que nous avons retenues et récupérées afin d'en faire notre corpus :


Page Suivante

©2008-2009 Marion Iché - Richard Delaplace