Présentation

L'objectif de notre travail est de réaliser une étude lexicométrique du mot "réfugiés", à travers son utilisation sur internet dans plusieurs langues.

Corpus

Nous avons pris comme corpus de base des articles de différentes maisons de presse françaises, espagnoles, anglaises et japonaises en se demandant à travers notre étude quantitative, quelles thèses reviennent le plus dans les articles traitant des réfugiés... vont-ils mettre en avant une crise ? Vont-ils plutôt parler du besoin humain, des aides que "nous" ou d'autres peuvent leur apporter ? Voilà quelques questions auxquelles nous allons répondre.

Nous avons donc pris des articles venant des journaux suivant : le Monde, le Figaro, Libération entre autres.

Pour le corpus anglais, ce sont principalement les sites The Guardian, CBC, Foxnews et le Huffington Post qui nous ont fourni notre corpus.

Il est fréquent de ne trouver que de très courts articles en libre lecture sur les sites de presse japonais ce qui a compliqué nos recherches. Finalement, notons dans nos sources les sites de grands journaux locaux et internationaux comme : Sankei, le Mainichi, Asahi Shinbun, Yomiuri, et le site japonais de la CNN ainsi qu'un site d'information japonais très connu : la NHK.

En ce qui concerne la presse espagnole, nous avons choisi d'utiliser des articles venant de journaux diversifiés, que ce soit géographiquement : espagnols, mexicains et même chiliens; mais aussi politiques, avec des journaux indépendantistes, progresssistes, au contraire plus centristes... elPais, la laVanguardia, journal catalan(iste) elUniversal, un journal mexicain international elMundoToday, un journal exclusivement online, laNuevaEspana journal régional espagnol. Et enfin TheClinic sera notre journal chilien !

Traitement des URLs

Une fois notre corpus constitué, il nous fallait donc mettre ensemble nos URLs dans un seul fichier que nous allons ensuite traiter.

Le traitement des URLs consiste à aspirer la page pour chaque url, en faire un dump, obtenir un fichier texte encodé en utf-8 (ce qui ne fût pas une mince affaire) rechercher les occurences du mot étudié et enfin baliser le texte pour qu'il soit utilisable avec les outils textométriques.

La première partie consistant à aspirer la page, faire un dump et vérifier l'encodage du fichier, fait l'objet d'un seul script écrit en bash qui vous est présenté sur une page dédiée.

Nous avons ensuite décidé, pour baliser correctement le texte d'utiliser un deuxième script rédigé cette fois en c++.

Tableaux

De ce script nous en avons tiré des tableaux, un pour chaque langue, qui récapitulent les résultats et incluent les liens vers chaque page aspirée et chaque dump. Ces tableaux ont représenté une grande partie de notre travail et permettent de visualiser l'ensemble du corpus.

Traitement des dump et contextes

Avec ces fichiers dumps, nous avons créé des fichiers globaux contenant l'ensemble des dumps et des contextes que nous devons aussi préparer pour les utiliser et en tirer des données analysables . Nous nous servons des logiciels comme Le Trameur et des outils en ligne comme Wordle pour en extraire des données que nous analyserons d'un point de vue linguistique.

Résultats

Tout cela nous permet au final d'obtenir des données que nous traitons ensuite pour en tirer des conjectures dans le domaine linguistique mais également socio-historique et géo-politique !