La vie des mots sur le web

                                 dans le cadre du master d'ingénierie linguistisque

     

Le projet intitulé La vie des mots sur le web a pour objectif de réaliser une "chaîne de traitement textuel semi-automatique", allant de la récupération des données à leur présentation en utilisant un script shell.

Pour ce faire, il nous a été demandé de choisir un mot français ainsi que ses traductions dans différentes langues étrangères. Notre choix s'est porté sur le mot couleur et nos langues d'étude, en plus du français, ont été l'arabe, le chinois et le coréen.

Le dictionnaire de langue Le Petit Robert 2010 recense 4 sens principaux pour le mot couleur:

   1.      La couleur: Caractère d'une lumière, de la surface d'un objet (indépendamment de sa forme), selon l'impression visuelle particulière qu'elles produisent (une couleur, les couleurs); propriété que l'on attribue à la lumière, aux objets, de produire une telle impression

   2.      Une couleur: Toute couleur autre que blanc, noir ou gris

   3.      Substance colorante: Substance que l'on applique sur un objet pour produire la sensation de couleur

La première étape du projet était, une fois le mot choisi, de rechercher des urls pour chacun des sens du mot français ainsi que pour leurs traductions dans les différentes langues choisies. Il aurait été intéressant de pouvoir travailler sur quelques pages web traduites mais ces ressources n'étaient pas disponibles dans nos langues de travail . Nous avons donc constitué une liste d'urls (autour de 25 par langue) contenant le mot couleur, en français, لون en arabe, en chinois, en coréen.

Une fois les urls choisies, nous avons été amenés à écrire, en plusieurs étapes, un script en shell qui génère automatiquement un tableau par langue contenant :

-        la liste numérotée des urls choisis

-         les pages "aspirées" de ces urls (pages web enregistrées localement)

-          les pages "dumpées" correspondantes dans l'encodage initial (fichiers texte sans les balises html, obtenus à partir des pages aspirées)

-         les pages "dumpées" converties en UTF-8

-          les mots en contexte au format texte, tels qu'ils apparaissent dans les pages web (récupérés des fichiers texte). Nous avons choisi de ne tenir compte que de la ligne qui précédait et de celle qui suivait immédiatement celle dans laquelle apparaissait le mot.

-          les mots en contexte au format html.


L'avancement du projet, chaque semaine, a été consigné sur un blog.