Master Traitement Automatique des Langues


Décembre 2006



PROJET INFORMATIQUE ENCADRE "BARRAGE"

  • Contexte et objectifs

Ce que nous nous proposons dans ce projet est de répertorier d'une manière automatique des usages du mot-cible "barrage", à partir d'une base de données constituée au préalable : une liste d'adresses web renvoyant à des sites où le motif "barrage" apparaît dans différents contextes. Le traitement des données rassemblées avec un moteur de recherche généraliste se fera avec des outils informatiques spécifiques à l'environnement Linux, sur un émulateur adapté au système Windows, notamment Cygwin.
L'intérêt théorique et en même temps le défi de cette application est de permettre la mise en place d'une "chaîne de traitement semi-automatisée " qui utilise des adresses URL comme données d'entrée, en respectant leur répartition préalable sur un critère sémantique.
D'un point de vue pratique, les résultats de ce projet permettront à l'utilisateur d'avoir un accès rapide à un ensemble de sites contenant le mot "barrage" ainsi qu'aux pages aspirées à partir de ces sites et pas en dernier lieu à un contexte plus restreint et par là plus ciblé du mot. Concrètement, le résultat final qui se présente sous la forme d'un tableau html est la synthèse de quatre étapes distinctes dans le traitement des données. La première colonne du tableau contiendra un lien cliquable vers le site, la deuxième colonne, un lien qui renvoie aux pages aspirées du site alors que les deux dernières colonnes du tableau présenteront des liens hypertexte vers des fichiers textes correspondant aux pages aspirés et aux contextes restreints du mot barrage.
Ainsi, celui qui s'intéresse au champs sémantique ou lexical du mot trouvera dans ce projet une liste de cinq usages distincts répertoriés sur le web, avec de surcroît un tri des informations pertinentes par rapport à un sens particulier.

ETAPES SCRIPTS RESULTATS REFERENCES