Accueil

TAL.apatride

Blog

Vivre l'apatridie dans les mots

La vie multilingue des mots « apatride(s) » et « apatridie »

Dans le cadre de la matière Programmation et Projet Encadré du Master 1 TAL (P3, P10 et INALCO), nous vous présentons ici notre projet TAL.apatride. Au cours du semestre, nous avons développé une chaîne de traitement textuel multilingue. Nous avons récolté des données textuelles grâce à notre propre script, afin de les analyser d’un point de vue linguistique. Pour être plus précis, nous avons travaillé sur le mots « apatride » et « apatridie » en français, en russe, en anglais et en espagnol, tout en nous concentrant sur les contextes lexicaux et sémantiques de chaque occurrence de ces mots au sein des corpus. Grâce aux résultats obtenus, nous sommes capables de décrire les nuances de sens de ces mots et les différences d'usage dans ces differentes langues.

A partir de nos intuitions linguistiques et de nos connaissances des langues travaillées, à partir d’un script de seulement quelques lignes, nous avons réussi à traiter une grande quantité de données. Il s’agit d’une démonstration de la puissance des outils employés et du travail des professionnels du domaine du Traitement Automatique des Langues.

La structure du projet est la suivante:

Objectifs Description de la tâche
Choix du terme et des langues Après un long débat, nous avons choisi de travailler autour des mots apatride et apatridie en français, en anglais, en russe et en espagnol, en espérant que leur contexte nous parle du fait de n’appartenir à aucun système étatique.
Récolte d'URLs Nous avons réuni 50 URLs, privilégiant les témoignages d’apatrides.
Ecriture du script En utilisant principalement Bash et html, nous avons écrit un script d’environ 300 lignes pour traiter toutes les données textuelles.
Amélioration du code Nous ne nous sommes pas contentés de reprendre les indications de base. Nous avons cherché plus loin pour améliorer notre code.
Préparation du corpus Afin d’analyser les données textuelles avec l’outil textométrique iTrameur, nous avons créé un seul fichier avec le corpus, libre de résidus textuels sans importance.
Analyse A partir des résultats obtenus, nous avons fait une analyse lexicométrique et sémantique du corpus, notre but principal.

Ce projet semestriel a été encadré par le professeur Serge Fleury de Paris 3 – Sorbonne Nouvelle – et par le professeur Jean Michel Daube de l’INALCO – Institut national des langues et civilisations orientales. Pour plus d'information sur le Master plurital: