Les différents usages du mot "BARRAGE" sur le web


image1


Projet réalisé par: BENMESSAOUD Boualem  -Master TAL, Université Paris 3-
                                           &
                              BACHA Bounouar  -Master TAL, Université Paris 3-


          Les différents sens du mot "Barrage", est le sujet de ce projet encadré par M.Serge Fleury et M.Rachid Belmouhoub dans la cadre de leur cours "Programmation et projet encadré".
L'objectif de notre projet est de relever sur le web les différents sens du mot "Barrage", et d'effectuer une série de traitements automatiques sur les resources textuelles (Pages web). Notre travail s'est fait en quatres étapes principales.
La première étape, consiste à récolter les différentes utilisations sémantiques du mot "Barrage", pour cela il fallait effectuer une recherche sur le net en utilisant un moteur de recherche, dans notre cas nous avons utilisé Google, et nous avons séléctionné une cinquantaines d'Urls qui contennaient le mot "Barrage".
Dans la deuxième étape, nous avons utilisé la commande wget(PDF,HTML) pour aspirer les pages. En suite, dans la troisième étapes, la commande lynx (PDF, HTML), pour récupérer les textes des pages web. Enfin, dans la dernière étape, nous avons utilisé la commande egrep (PDF, HTML) pour filtrer les textes récupérés par la commande lynx et ne garder que le contexte d'apparition de mot "Barrage".
Les trois dernières étapes, aspiration des pages web avec wget, récupération du texte des pages web avec lynx et filtrage du mot "Barrage" avec egrep ont été réalisés automatiquement avec un script shell (HTML, SH) sous l'envirronement linux.
Les résultats obtenus sont représentés sous formes de tableaux où chaque tableau récapitule les tâches effectuées pour chaque usage du mot "Barrage". Ces résultats (tableaux et scripts) sont résumés dans la conclusion.

                                                                                                                                              Suivant >