Aleksandra Ristic (INALCO/Trad) et Yannick Lam Kim (INALCO/Im)
    1. Introduction:
    2. Méthode utilisée:
    3. Organisation et traitement des pages
         1. Répertoires du projet.
         2. Données.
         3. Choix des pages
         4. Extraction et balisage du texte à partir des pages aspirées.
         5. Parenthèse: Utilisation d'Unitex pour baliser "encore plus".
         6. Processus de création des tables
         7. Résultats du traitement
         8. Problèmes rencontrés
         9. Conclusion:

                                 Introduction:

   Nous allons vous présenter la constitution de notre premier corpus d'une
   cinquantaine d'urls contenant le mot barrage. Dans un premier temps nous
   allons vous décrire la méthode utilisée puis dans un deuxième temps nous
   allons vous présenter l'organisation dans un tableau et le traitement des
   pages recueillies.

                               Méthode utilisée:

   Tout d'abord nous avons recherché sur divers moteurs de recherche le mot
   barrage où le sens de barrage hydraulique s'est nettement détaché. Nous
   avons trouvé une formidable métaphore: barrage au sens "match de barrage"
   avec en illustration une très belle photographie d'un barrage hydraulique .

   Nous avons ensuite été curieux et nous avons cherché les différents sens du
   mot  barrage dans des dictionnaires traditionnels, Le Petit Robert, Le
   Larousse, ainsi que sur internet, le TLFi, le site de Wikipedia et le Quid
   (où  nous  avons  trouvé  688  résultats  pour  le mot barrage au sens
   géographique).

   Nous  avons  également  lu vos  transparents  sur  plurital et le site
   technolangue.net ainsi que le travail de cartographie lexicale pour la
   recherche d'information de Jean Veronis, et les travaux de Olivier Ferret,
   Audibert, Reymond grâce à une recherche sur google où l'on a tapé "corpus
   barrage".

   Ces travaux sont très intéressants et nous ont beaucoup aidé dans notre
   démarche.

   En effet on y découvre comment ils ont procédé dans leurs projets. Ils sont
   partis de vastes corpus pour découvrir les sens de mots à partir d'un réseau
   de cooccurrences lexicales. Ferret a essayé de définir les sens des mots à
   partir de leur usage.

   Pourtant comme notre travail étant de bien moins grande envergure nous nous
   sommes limités à un échantillonnage de quatre sens, pour récupérer une
   information réduite, concise et appropriée.
   Nous avons choisi deux moteurs de recherche: Google, le plus grand nombre
   d'occurrences,  Mozbot, et les archives du quotidien Le Monde, le plus
   pertinent.


   Nous avons donc mis en évidence les quatre sens suivants:
     * "Barrage  hydraulique" : Ouvrage hydraulique. cf. Wikipédia. Champ
       sémantique: catastrophe, rupture, hydroélectrique, électricité, énergie,
       construction, eau, lac, vallée, noms de rivière, etc... avec Google et
       Mozbot,  et projet, travaux, construction avec le corpus Le Monde.
                       Dans le corpus Le Monde, nous avons des exemples variés
       de barrages hydrauliques (Charlas en Haute-Garonne, Baglihar, Laos,
       Yunnan  chinois,  Kissoufim,  Cisjordanie, Yacyreta, Trois Gorges,
       Serre-Ponçon  en  France).Avec les moteurs de recherche nous avons
       Malpasset, Assouan, Rance, Champagney, Poutès, mais aussi Trois Gorges,
       Charlas.

     * "Tir de barrage": Domaine militaire; tir d'artillerie destiné à barrer
       le passage à l'ennemi (TLFi).Contexte de guerre, tir de barrage des
       rebelles au Libéria, en Irak, Jérusalem. Champ sémantique: artillerie,
       attaques, obus, armes, rebelles; mais aussi explication du jeu "Tir des
       Roys" et métonymie: tir de barrage dans la blogosphère, tir de barrage
       du P.S. contre l'ouverture du capital d'EDF, tir de barrage contre le
       CSA.

     * "Faire barrage" : Expression non trouvée dans le TLFi; dans le Petit
       Robert, sens fig.: "empêcher d'agir". Nous avons trouvé un grand nombre
       de fois l'expression: "faire barrage à" surtout concernant le F.N. (à M.
       Le Pen, à Jean-Marie Le Pen, à l'extrême-droite, aux candidats du Front
       National) mais aussi barrage aux microbes, à la capitalisation, au
       gouvernement...

     * "Match de barrage" : destiné à départager plusieurs concurrents qui se
       disputent l'accès à une catégorie, à une compétition supérieure (Le
       Petit Robert). Expression également non trouvée dans le TLFi.

   REFRESH(0 sec): file://localhost/ym/login?nojs=1
   REFRESH(0 sec): file://localhost/ym/login?nojs=1

   Domaine du sport, basket-ball, rugby, tennis, football. Champ sémantique:
   Coupe du Monde, finale, vainqueur, noms de Pays. Olivier Ferret nous dit que
   dans le corpus qu'il a étudié, "le sens match de barrages est faiblement
   présent  au niveau  des cooccurrences". Au contraire nous avons trouvé
   énormément d'occurrences de barrages sportifs sur google. Voir tableau
   comparatif ci-dessous:

   Google pages francophones Yahoo  Mozbot MSN  Voila.fr Altavista
   barrage 2580000 1490000 196000 380064 136940 1550000
   Tir de barrage 117000 113000 8090 14052
   Faire barrage à 2000000 777000
   Barrage tennis 141000 102000 12903
   Barrage basket 94100            63500
   Barrage football 246000    170000
   Barrage foot 143000            77900
   Barrage hydraulique 170000 75200 11900
   Barrage hydrolique 389      144 143

   Un  intermède  amusant  dans  notre recherche: nous avons tapé barrage
   hydrolique sur Google, Yahoo et MSN, et nous avons trouvé des réponses (389
   pour Google, 144 pour Yahoo et 143 pour MSN) Evidemment ces chiffres sont
   insignifiants par rapport au nombre d'occurences de barrage hydraulique
   (170000, 75200 et 11900). Et nous constatons souvent que ce sont des enfants
   qui posent des questions à propos de devoirs à rendre sur le thème des
   barrages, et qui font beaucoup de fautes d'orthographe.
   Ex: bonjour j’aimerai trouvé des information sur les barrages hydrolique en
   vue de constituer un dossier pour un TIPE sur ce sujet...

                     Organisation et traitement des pages

Répertoires du projet.

   La  racine  du  projet  s'appele  projet.  Ce  répertoire contient les
   sous-répertoires suivants:
     * bin : Scripts divers pour l'automatisation du processus
     * documentation  : Contient ce fichier ainsi que les tables des Urls
       aspirées.
     * pages : la racine du répertoire contenant les pages aspirées
     * result : la racine du répertoire ayant la même structure que pages et
       qui contient le résultat des divers scripts utilisés pour transformer et
       formatter les pages aspirées.

Données.

   Le projet pages contient autant de sous répertoires que de moteurs utilisés.
   Nous avons utilisé Google, Mozbot et le corpus du Monde, soit 3 moteurs
   différents. Il y a donc 3 sous-répertoires sous pages. ( voir figure 1 )
   Dans chacun de ces répertoires associés à un moteur nous avons créé un
   répertoire par expression recherchée. Et pour chaque expression recherchée,
   nous avons listé les Urls à aspirer dans un fichier nommé urls.
   Ce dernier sert à lancer wget avec l'option -i de façon à aspirer l'ensemble
   des Urls en une seule fois.
   Exemple: L'aspiration des pages de google concernant l'expression "faire
   barrage" se fait dans le répertoire pages/google/faire-barrage à partir des
   urls  listées  dans le fichier pages/google/faire-barrage/urls avec la
   commande :

   (cd pages/google/faire-barrage ; wget -i urls)

   L'aspiration s'est faite à la main ( 3*4 utilisations de la commande ci
   dessus ), mais peut être automatisée sans problèmes. ( Une petite exception
   pour CorpusLeMonde doit être gérée pour ne pas coder de mot de passe dans
   les scripts. Note 1)

   Figure 1. Organisation des répertoires

   layout

Choix des pages

   Seules les pages ayant une extension .htm , .html , shtml etc.. ont été
   choisies pour être aspirées. Nous n'avons pas aspiré de sites dynamiques ni
   de document PDF. Certaines des pages aspirées contiennent plusieurs frames.
   De plus, afin de ne pas compliquer le mise en correspondance des Urls et des
   noms de fichiers locaux, nous avons choisi des Urls pour lesquelles le nom
   du fichier créé par wget était unique pour un moteur donné et un mot clé
   donné (Note 2).

Extraction et balisage du texte à partir des pages aspirées.

   On utilise la commande lynx pour créer un fichier texte qui sera ensuite
   purgé d'un certain nombre de lignes qui contiennent la liste des références
   externes de la page. Ces dernieres ne sont pas en effet utiles pour le
   traitement. Le texte une fois créé, il est balisé sommairement à l'aide de
   grep et d'outils ad hoc.
   Exemple : Le fichier html résultat de l'aspiration est transformé en un
   texte qui ressemble à ça.

Parenthèse: Utilisation d'Unitex pour baliser "encore plus".

   Les "patterns" disponibles dans Unitex permettent de spécifier simplement et
   d'identifier les motifs recherchées. De plus les formes fléchies seront
   aussi prises en compte. Un petit script h2t automatise cette tâche. La
   définition des patterns se fait par le script mkpatt. ( voir Figure 2)
   Un  résumé  des résultats obtenus est crée par le script mkuntx et est
   disponible ici.

Processus de création des tables

   Une fois aspirées, les fichiers correspondants aux pages ont été créés par
   wget dans les répertoires du projet. Comme expliqué ci dessus, nous n'avons
   pas eu à gérer la correspondance entre un nom d'Url et un nom de fichier
   local créé par wget. Cette dernière a été programmée simplement sur le
   modèle suivant :
   Exemple:

   Nom complet de l'Url aspirée   ---> Nom du fichier local utilisé
   http://users.skynet.be/suffrage-universel/fr/khiari.htm khiari.htm

   Le processus se déroule comme suit :
    1. On lance le script qui s'appelle process et qui pilote l'ensemble des
       opérations.
    2. Pour chaque fichier correspondant à une Url aspirée, on applique la
       commande stabilo
    3. Une fois les pages crées, on fabrique les tables dans le répertoire
       documentation avec la commande mkhtm.

   ( Si on veut essayer : cd projet ; rm -rf result ; cd bin ; ./process )

   Note 1: La Documentation de wget mentionne la possibilité de mettre le
   compte de connexion dans un fichier ~/.getrc ou ~/.netrc que l'on protégera
   en lecture. En tout état de cause, la transmission des mots de passe en
   clair posera des problèmes de sécurité.
   Note 2:  Pour simplifier, aucune analyse soignée des erreurs et du "log
   file" de wget n'a été faite. La correspondance entre le nom d'Url et le nom
   du fichier local devrait être faite à ce moment du processus.
   Note 3: Certaines pages aspirées font référence à des pages dynamiques. Il
   est alors possible d'avoir une erreur lors de la consultation dans colonne
   page aspirée..

Résultats du traitement

   Les tables crées ci dessus sont consultables en suivant pour un moteur les
   liens ci dessous:
     * Google

     * Mozbot

     * CorpusLeMonde

Problèmes rencontrés

   Nous  avons  consignés le calendrier de nos activités et les problèmes
   rencontrés ici.

Conclusion:

       Les anglais sont fiers d'annoncer qu'il faut 80 000 ans pour lire ce que
   contient la British Library. Pourtant face à des corpus si immenses, il nous
   faut, pour les étudier, des outils appropriés.
       Pour  notre premier mini-corpus d'une cinquantaine d' urls sur le lexème
   barrage,  nous  avons  travaillé sur la toile web, source intarissable
   d'informations. Nous avons bien évidemment dû nous tourner vers des moteurs
   de recherche pour faire une première sélection.
        Nous  nous sommes interrogés sur les différents sens de ce mot en
   contexte, inspirés par les recherches sur l'automatisation de la tâche de
   désambiguïsation lexicale et sur les dictionnaires distributionnels qui
   semblent être en plein essor.
   Et c'est ainsi que nous avons découvert une multitude d'utilisations du mot
   barrage, comme par exemple, "barrage de guitare" ou encore "Barrage" en nom
   propre: nom de bistrot ou de restaurant (La Taverne du Barrage Restaurant
   bar brasserie Saint-Malo en Bretagne, ou nom de livre: Les aventures de
   Lassie numéro 3 Le Barrage).
        Une  fois, nos quatre sens choisis, nous avons utilisé des outils
   informatiques  tels  que  Wget,  Lynx, egrep  et créé des boucles pour
   automatiser les tâches d'extraction, de filtrage.