Bienvenue sur notre site !

        

     Notre projet consiste en : "la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation."

 

    Nous avons alors choisi un mot qui présente une certaine ambiguïté lexicale et nous avons recherché les urls où ce mot apparaissait sous ses différents sens.

Comme notre corpus devait être bilingue, nous avons alors fait nos recherches pour la français et l'anglais.

Enfin, nous avons fait différentes manipulations sur ces urls dans le but d'obtenir leurs contextes d'apparition du mot. Ces derniers nous permettront à leur tour de retrouver les différents emplois de ce mot .

 

Les différentes étapes du  projet :

 

- choix du mot Corps/body

- recherche d’urls pour chaque langue (le français et l’anglais). Les urls seront stockés dans un fichier texte.

- aspiration des pages web grâce à l’outil wget

- récupération du texte des pages aspirées grâce à l’outil lynx

- filtrage du texte pour ne garder que les mots corps et body avec leurs contextes. Pour cette étape, utilisation de l’outil egrep

 

Pour plus d’informations sur le fonctionnement des outils, voir la page Outils de notre site.

Bonne lecture !

Marion Iché et Haruka Sato