Présentation du projet

Le projet La vie multilingue des mots sur le web, mené dans le cadre de notre cours Programmation et projet encadré de notre première année de Master Traitement Automatique des Langues, consiste à mettre en place une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation sur ce site.

Pour réaliser ce projet, nous avons choisi un mot à étudier dans différentes langues que nous avons recherché dans des ressources internet. La première phase du projet a consisté à écrire un script bash afin de récupérer les données textuelles de ces diverses ressources puis de les traiter informatiquement dans le but de composer des corpus à analyser. La seconde phase de notre projet nous a permis d'utiliser des outils informatiques dans l'optique de proposer une évaluation critique de nos résultats, tant d'un point de vue qualitatif que quantitatif.

Qui a participé à ce projet ?

Nous sommes Lucie, Clémence et Yuchen, trois étudiants en TAL à Paris 3 aux parcours variés. Nous avons respectivement une licence de Sciences du langage, de Langues, Littératures et Civilisations Etrangères et Régionales en anglais et une licence de Langue française.

Grâce à ce projet, nous avons pu, pour certains d'entre nous, découvrir la programmation en bash et un tout nouvel environnement de travail: l'invite de commandes. Il nous a permis par ailleurs de progresser dans la résolution de différents problèmes et de prendre conscience de toutes les étapes nécessaires à la mise en place d'une chaîne de traitement textuel semi-automatique.

Une expression: chanson française

Nous avons eu l'idée de ce terme car nous nous intéressons tous à ce concept musical typiquement français que l'on retrouve dans les films, les séries ou à chaque fois que l'on parle de la France. Nous étions curieux de voir à quoi cette expression faisait référence dans les cultures française, allemande et chinoise et si le contexte d'apparition de celle-ci pouvait être différent selon la langue.

Nous avons axé nos recherches de ressources à traiter uniquement à partir de blogs dans l'optique d'obtenir des avis de "vraies personnes" en France, en Allemagne et en Chine. En effet, ces avis ne sont en général pas présentés dans des articles de presse. Par ce choix de constitution de corpus à partir de blogs, nous avons voulu savoir si les gens écrivaient des blogs sur la chanson française et connaître la popularité de celle-ci dans les trois pays choisis.

Bonne lecture !