Aleksandra Ristic (INALCO/Trad) et Yannick Lam Kim (INALCO/Im) 1. Introduction: 2. Méthode utilisée: 3. Organisation et traitement des pages 1. Répertoires du projet. 2. Données. 3. Choix des pages 4. Extraction et balisage du texte à partir des pages aspirées. 5. Parenthèse: Utilisation d'Unitex pour baliser "encore plus". 6. Processus de création des tables 7. Résultats du traitement 8. Problèmes rencontrés 9. Conclusion: Introduction: Nous allons vous présenter la constitution de notre premier corpus d'une cinquantaine d'urls contenant le mot barrage. Dans un premier temps nous allons vous décrire la méthode utilisée puis dans un deuxième temps nous allons vous présenter l'organisation dans un tableau et le traitement des pages recueillies. Méthode utilisée: Tout d'abord nous avons recherché sur divers moteurs de recherche le mot barrage où le sens de barrage hydraulique s'est nettement détaché. Nous avons trouvé une formidable métaphore: barrage au sens "match de barrage" avec en illustration une très belle photographie d'un barrage hydraulique . Nous avons ensuite été curieux et nous avons cherché les différents sens du mot barrage dans des dictionnaires traditionnels, Le Petit Robert, Le Larousse, ainsi que sur internet, le TLFi, le site de Wikipedia et le Quid (où nous avons trouvé 688 résultats pour le mot barrage au sens géographique). Nous avons également lu vos transparents sur plurital et le site technolangue.net ainsi que le travail de cartographie lexicale pour la recherche d'information de Jean Veronis, et les travaux de Olivier Ferret, Audibert, Reymond grâce à une recherche sur google où l'on a tapé "corpus barrage". Ces travaux sont très intéressants et nous ont beaucoup aidé dans notre démarche. En effet on y découvre comment ils ont procédé dans leurs projets. Ils sont partis de vastes corpus pour découvrir les sens de mots à partir d'un réseau de cooccurrences lexicales. Ferret a essayé de définir les sens des mots à partir de leur usage. Pourtant comme notre travail étant de bien moins grande envergure nous nous sommes limités à un échantillonnage de quatre sens, pour récupérer une information réduite, concise et appropriée. Nous avons choisi deux moteurs de recherche: Google, le plus grand nombre d'occurrences, Mozbot, et les archives du quotidien Le Monde, le plus pertinent. Nous avons donc mis en évidence les quatre sens suivants: * "Barrage hydraulique" : Ouvrage hydraulique. cf. Wikipédia. Champ sémantique: catastrophe, rupture, hydroélectrique, électricité, énergie, construction, eau, lac, vallée, noms de rivière, etc... avec Google et Mozbot, et projet, travaux, construction avec le corpus Le Monde. Dans le corpus Le Monde, nous avons des exemples variés de barrages hydrauliques (Charlas en Haute-Garonne, Baglihar, Laos, Yunnan chinois, Kissoufim, Cisjordanie, Yacyreta, Trois Gorges, Serre-Ponçon en France).Avec les moteurs de recherche nous avons Malpasset, Assouan, Rance, Champagney, Poutès, mais aussi Trois Gorges, Charlas. * "Tir de barrage": Domaine militaire; tir d'artillerie destiné à barrer le passage à l'ennemi (TLFi).Contexte de guerre, tir de barrage des rebelles au Libéria, en Irak, Jérusalem. Champ sémantique: artillerie, attaques, obus, armes, rebelles; mais aussi explication du jeu "Tir des Roys" et métonymie: tir de barrage dans la blogosphère, tir de barrage du P.S. contre l'ouverture du capital d'EDF, tir de barrage contre le CSA. * "Faire barrage" : Expression non trouvée dans le TLFi; dans le Petit Robert, sens fig.: "empêcher d'agir". Nous avons trouvé un grand nombre de fois l'expression: "faire barrage à" surtout concernant le F.N. (à M. Le Pen, à Jean-Marie Le Pen, à l'extrême-droite, aux candidats du Front National) mais aussi barrage aux microbes, à la capitalisation, au gouvernement... * "Match de barrage" : destiné à départager plusieurs concurrents qui se disputent l'accès à une catégorie, à une compétition supérieure (Le Petit Robert). Expression également non trouvée dans le TLFi. REFRESH(0 sec): file://localhost/ym/login?nojs=1 REFRESH(0 sec): file://localhost/ym/login?nojs=1 Domaine du sport, basket-ball, rugby, tennis, football. Champ sémantique: Coupe du Monde, finale, vainqueur, noms de Pays. Olivier Ferret nous dit que dans le corpus qu'il a étudié, "le sens match de barrages est faiblement présent au niveau des cooccurrences". Au contraire nous avons trouvé énormément d'occurrences de barrages sportifs sur google. Voir tableau comparatif ci-dessous: Google pages francophones Yahoo Mozbot MSN Voila.fr Altavista barrage 2580000 1490000 196000 380064 136940 1550000 Tir de barrage 117000 113000 8090 14052 Faire barrage à 2000000 777000 Barrage tennis 141000 102000 12903 Barrage basket 94100 63500 Barrage football 246000 170000 Barrage foot 143000 77900 Barrage hydraulique 170000 75200 11900 Barrage hydrolique 389 144 143 Un intermède amusant dans notre recherche: nous avons tapé barrage hydrolique sur Google, Yahoo et MSN, et nous avons trouvé des réponses (389 pour Google, 144 pour Yahoo et 143 pour MSN) Evidemment ces chiffres sont insignifiants par rapport au nombre d'occurences de barrage hydraulique (170000, 75200 et 11900). Et nous constatons souvent que ce sont des enfants qui posent des questions à propos de devoirs à rendre sur le thème des barrages, et qui font beaucoup de fautes d'orthographe. Ex: bonjour j’aimerai trouvé des information sur les barrages hydrolique en vue de constituer un dossier pour un TIPE sur ce sujet... Organisation et traitement des pages Répertoires du projet. La racine du projet s'appele projet. Ce répertoire contient les sous-répertoires suivants: * bin : Scripts divers pour l'automatisation du processus * documentation : Contient ce fichier ainsi que les tables des Urls aspirées. * pages : la racine du répertoire contenant les pages aspirées * result : la racine du répertoire ayant la même structure que pages et qui contient le résultat des divers scripts utilisés pour transformer et formatter les pages aspirées. Données. Le projet pages contient autant de sous répertoires que de moteurs utilisés. Nous avons utilisé Google, Mozbot et le corpus du Monde, soit 3 moteurs différents. Il y a donc 3 sous-répertoires sous pages. ( voir figure 1 ) Dans chacun de ces répertoires associés à un moteur nous avons créé un répertoire par expression recherchée. Et pour chaque expression recherchée, nous avons listé les Urls à aspirer dans un fichier nommé urls. Ce dernier sert à lancer wget avec l'option -i de façon à aspirer l'ensemble des Urls en une seule fois. Exemple: L'aspiration des pages de google concernant l'expression "faire barrage" se fait dans le répertoire pages/google/faire-barrage à partir des urls listées dans le fichier pages/google/faire-barrage/urls avec la commande : (cd pages/google/faire-barrage ; wget -i urls) L'aspiration s'est faite à la main ( 3*4 utilisations de la commande ci dessus ), mais peut être automatisée sans problèmes. ( Une petite exception pour CorpusLeMonde doit être gérée pour ne pas coder de mot de passe dans les scripts. Note 1) Figure 1. Organisation des répertoires layout Choix des pages Seules les pages ayant une extension .htm , .html , shtml etc.. ont été choisies pour être aspirées. Nous n'avons pas aspiré de sites dynamiques ni de document PDF. Certaines des pages aspirées contiennent plusieurs frames. De plus, afin de ne pas compliquer le mise en correspondance des Urls et des noms de fichiers locaux, nous avons choisi des Urls pour lesquelles le nom du fichier créé par wget était unique pour un moteur donné et un mot clé donné (Note 2). Extraction et balisage du texte à partir des pages aspirées. On utilise la commande lynx pour créer un fichier texte qui sera ensuite purgé d'un certain nombre de lignes qui contiennent la liste des références externes de la page. Ces dernieres ne sont pas en effet utiles pour le traitement. Le texte une fois créé, il est balisé sommairement à l'aide de grep et d'outils ad hoc. Exemple : Le fichier html résultat de l'aspiration est transformé en un texte qui ressemble à ça. Parenthèse: Utilisation d'Unitex pour baliser "encore plus". Les "patterns" disponibles dans Unitex permettent de spécifier simplement et d'identifier les motifs recherchées. De plus les formes fléchies seront aussi prises en compte. Un petit script h2t automatise cette tâche. La définition des patterns se fait par le script mkpatt. ( voir Figure 2) Un résumé des résultats obtenus est crée par le script mkuntx et est disponible ici. Processus de création des tables Une fois aspirées, les fichiers correspondants aux pages ont été créés par wget dans les répertoires du projet. Comme expliqué ci dessus, nous n'avons pas eu à gérer la correspondance entre un nom d'Url et un nom de fichier local créé par wget. Cette dernière a été programmée simplement sur le modèle suivant : Exemple: Nom complet de l'Url aspirée ---> Nom du fichier local utilisé http://users.skynet.be/suffrage-universel/fr/khiari.htm khiari.htm Le processus se déroule comme suit : 1. On lance le script qui s'appelle process et qui pilote l'ensemble des opérations. 2. Pour chaque fichier correspondant à une Url aspirée, on applique la commande stabilo 3. Une fois les pages crées, on fabrique les tables dans le répertoire documentation avec la commande mkhtm. ( Si on veut essayer : cd projet ; rm -rf result ; cd bin ; ./process ) Note 1: La Documentation de wget mentionne la possibilité de mettre le compte de connexion dans un fichier ~/.getrc ou ~/.netrc que l'on protégera en lecture. En tout état de cause, la transmission des mots de passe en clair posera des problèmes de sécurité. Note 2: Pour simplifier, aucune analyse soignée des erreurs et du "log file" de wget n'a été faite. La correspondance entre le nom d'Url et le nom du fichier local devrait être faite à ce moment du processus. Note 3: Certaines pages aspirées font référence à des pages dynamiques. Il est alors possible d'avoir une erreur lors de la consultation dans colonne page aspirée.. Résultats du traitement Les tables crées ci dessus sont consultables en suivant pour un moteur les liens ci dessous: * Google * Mozbot * CorpusLeMonde Problèmes rencontrés Nous avons consignés le calendrier de nos activités et les problèmes rencontrés ici. Conclusion: Les anglais sont fiers d'annoncer qu'il faut 80 000 ans pour lire ce que contient la British Library. Pourtant face à des corpus si immenses, il nous faut, pour les étudier, des outils appropriés. Pour notre premier mini-corpus d'une cinquantaine d' urls sur le lexème barrage, nous avons travaillé sur la toile web, source intarissable d'informations. Nous avons bien évidemment dû nous tourner vers des moteurs de recherche pour faire une première sélection. Nous nous sommes interrogés sur les différents sens de ce mot en contexte, inspirés par les recherches sur l'automatisation de la tâche de désambiguïsation lexicale et sur les dictionnaires distributionnels qui semblent être en plein essor. Et c'est ainsi que nous avons découvert une multitude d'utilisations du mot barrage, comme par exemple, "barrage de guitare" ou encore "Barrage" en nom propre: nom de bistrot ou de restaurant (La Taverne du Barrage Restaurant bar brasserie Saint-Malo en Bretagne, ou nom de livre: Les aventures de Lassie numéro 3 Le Barrage). Une fois, nos quatre sens choisis, nous avons utilisé des outils informatiques tels que Wget, Lynx, egrep et créé des boucles pour automatiser les tâches d'extraction, de filtrage.