Programmation et Projet Encadré : La vie des mots sur le web

Présentation du projet

Le projet La vie des mots sur le web a pour objectif de réaliser une "chaîne de traitement textuel semi-automatique", de la récupération des données à leur présentation.
Pour ce faire, il nous a donc été demandé de choisir un mot français présentant une ambiguïté sémantique, mot ayant ainsi différentes traductions dans une langue étrangère. Notre choix s'est porté sur le mot "bouchon", qui, en français, renvoie à la fois à un objet servant à clore un contenant (quelle que soit la matière de cet objet), à un embouteillage et à un type de restaurant originellement de Lyon (bouchon lyonnais).
La première étape du projet était, une fois le mot choisi, de rechercher des urls pour chacun des sens du mot français ainsi que pour leurs traductions dans différentes langues étrangères ; ceci à l'aide d'un ou plusieurs moteurs de recherche. Nous avons donc constitué une liste d'urls pour les différents sens du mot en français, en anglais, en allemand, en portugais et en latin (sachez que rechercher des urls en latin sur la toile semble incongru, mais est néanmoins fructueux!).

Une fois les urls choisies, nous avons été amenés à écrire un script en bash qui génère automatiquement un tableau contenant :

  • les urls
  • les pages aspirées de ces urls (pages web enregistrées localement)
  • les pages dumpées correspondantes (fichiers texte sans les balises html, obtenus à partir des pages aspirées)
  • les mots en contexte, tels qu'ils apparaissent dans les pages web (récupérés des fichiers texte)

  • Notre travail a ainsi été divisé en quatre principales étapes, que vous trouverez exposées ci-après.
    De plus, comme nous avons à la fois travaillé sous Microsoft et MacOS, nous avons rencontré quelques problèmes quant à l'échange de données d'un ordinateur à l'autre (problèmes d'encodage), ainsi que dans la syntaxe à utiliser pour notre script (il y a de légères différences de Microsoft à MacOSX). Ces problèmes - et leur résolution - sont exposés ici.

    Comment installer cygwin ou une librairie sous Windows et Mac?

    Notre script bash

    Nos programmes et nos données en entrée pour l'anglais, l'allemand, le français, le latin et le portugais

    Nos tableaux pour l'anglais, l'allemand, le français, le latin et le portugais

    Creative Commons License
    Le texte de La vie des bouchons sur le web par Del Socorro Francoise et Fol Hugo est mis à disposition selon les termes de la licence Creative Commons Paternité-Pas d'Utilisation Commerciale-Pas de Modification 2.0 France et
    Creative Commons Licenseles programmes de La vie des bouchons sur le web sont mis à disposition selon les termes de la licence Creative Commons Paternité-Pas d'Utilisation Commerciale-Partage des Conditions Initiales à l'Identique 2.0 France.