Les sens du mot "barrage" sur le Web



de
Névéna Pantikina, étudiante en DESS Traductique et gestion de l'information, Inalco
et
 Virginie Picard, étudiante en Master PLURITAL, Université de Paris 3
 


Présentation du projet :
       
Le présent exercice fait partie d'un projet en cours ayant pour objectif l'étude des différents sens du mot "barrage" représentés sur le Web. Le travail s'est déroulé sur plusieurs semaines, dans le cadre du cours "Programmation et projet encadré", 1er semestre de l'année 2005-2006, sous la direction de Jean-Michel Daube, Serge Fleury et Benoît Habert.

L'objectif de cet exercice était de réaliser une chaîne de traitement semi-automatique des ressources textuelles. Chaque étape de ce processus impliquait la réalisation d'une tâche concrète (constitution d'un corpus d'une cinquantaine de pages Web, normalisation des textes, extraction de contextes, structuration et présentation des résultats) à l'aide d'outils que nous devions apprendre à maîtriser.

L'automatisation des tâches a été effectuée dans l'environnement Cygwin à l'aide des commandes spécifiques Wget, Lynx et Egrep. La finalité de notre travail était de relever certains usages du mot "barrage" en les illustrant par des contextes représentatifs, le tout organisé dans une structure prédéfinie.





L'organisation de ce site retrace les différentes activités :
Tout d'abord, vous pouvez lire un journal qui retrace la chronologie des tâches réalisées pour ce projet, relate les problèmes rencontrés lors de l'utilisation des outils et donne quelques conclusions quant' aux résultats qualitatifs et quantitatifs obtenus.
Ensuite, vous pouvez cliquer sur les trois commandes que nous avons utilisées sous Cygwin pour voir les programmes que nous avons créés et les résultats obtenus :
- la première commande a été wget. Wget permet d'aspirer des pages Web.
- la deuxième a été lynx. Lynx avec l'option -dump permet de ne garder que le texte des pages Web.
- la troisième a été egrep. Egrep permet d'extraire un motif donné ainsi que son contexte.