LE PROJET

Des suites des tragiques événements de janvier 2015, le débat sur la satire s'est rouvert.



Dans le cadre de notre cursus en traitement automatique des langues (TAL, pour faire plus court), nous décidons alors d'explorer les différentes visions de ce concept plutôt particulier, en Allemagne, en Angleterre, en Irlande, en Amérique, au Japon et enfin en France.

Notre thème est parti d'un mot tout simple, "satire". C'est en partant de ce mot que nous voulions voir si ce concept pouvait différé en fonction de la position géopgraphique dans un premier temps. Dans notre groupe, nous avions la chance d'avoir quatre langue différentes. Au moment de la conception du thème, nous avons penser que l'on pourrait élargir nos horizons. Comme nous parlons tous anglais, il nous a sembler une bonne idée de voir et de comparer plusieurs presse anglophones en plus de celle de la France, de l'Allemagne et du Japon.

Dès la conception de ce thème, nous avions dans l'idée que l'on trouverait des divergences depuis les événements de Charlie Hebdo. Il était donc tout naturel pour nous de scinder nos corpus en deux, afin de rendre compte des possibles différences entre l'utilisation du terme avant et après les évènements.


☆ Renise Pierre s'est occupé de la presse allemande et irlandaise.


☆ Loic Galand s'est occupé de la presse japonaise et américaine.


☆ Manon Kalfon s'est occupé de la presse française et britannique.


C'est ensuite que nous avons eu à former nos corpus en respectants les critères suivants: langues, pays et date de parution.

Il a également fallut que nous écrivions un script en Bash pour pouvoir traiter au mieux ces fameux corpus. Ce script a été réalisé pas en pas, en cours.

Un des problèmes majeurs fut de gerer l'encodage de nos pages. Nous avons donc utilisé comme outil, les expressions régulières, ainsi que la commande bash "sed" afin de pouvoir extraire l'encodage de notre page. Puis, si elle n'était pas en utf-8, il a fallut la convertir.

Une fois notre script fini, il a fallut s'interesser à tout ce qu'il nous a permis de construire. Tout d'abord les contextes. Ils nous ont permit de créer des "nuages de mots". Nous avons également utlisé ces corpus de contextes de la presse française et britannique pour faire nos analyses sur le Trameur. Nous avons surtout choisi ces corpus car il était en français et en anglais, donc plus facilement exploitable par le Trameur.

Nous avons finalement eu à mettre en valeur notre travail grâce au HTML, CSS et JavaScript. Nous avons commencé par mettre en page nos tableaux. La tache finale a été de créer un site internet joli, et de le remplir de photos, d'animation (merci JavaScript) et de mises en page.

Renise Pierre et Manon Kalfon.


Mon travail sur le projet était de m'occuper de la presse américaine et surtout japonaise. Si la base du travail sur le code était la même que mes collègues, je me suis cependant retrouvé à devoir gérer certains problèmes spécifiques à la langue japonaise, principalement l'encodage des caractères et la segmentation du japonais pour pouvoir traiter notre corpus dans le trameur.

Lors de la création des contextes sur mon corpus japonais, j'ai eu la surprise de trouver une suite de caractères illisibles à la place des caractères japonais attendus. La raison était que les contextes étant du texte brut, le navigateur décidait par défaut de l'interpréter en ISO 8859-1. J'ai donc rajouté une section dans mon code qui servait à créer une page HTML à partir du texte brut de chaque contexte. Outre la possibilité de rendre les contextes plus agréables à l'œil en mettant en évidence par du gras et des couleurs les lignes d'occurence ainsi que le mot recherché lui-même, cela permettait d'intégrer l'annonce d'un charset pour permettre au navigateur d'interpréter correctement les caractères japonais.

La segmentation du japonais a été un petit peu plus compliquée. Si l'anglais, le français et l'allemand peuvent être segmentés par le trameur sans difficulté, il n'en va pas de même pour le japonais. Il fallait donc segmenter les contextes au préalable avant de l'ouvrir dans le trameur. Cette fonction a été rempli par Chasen, un outil d'analyse morphologique développé par l'Institut des Sciences et Techniques de Nara. La segmentation se fait directement lors de l'exécution de notre programme. Chasen segmente chaque lemme sur une ligne différente et l'annote, sur la même ligne, d'informations telle que les différentes écritures, la lecture, la forme dictionaire, etc. Ces informations n'étant pas utiles (et même parasitaires) pour l'analyse dans le trameur, il a suffit de s'en débarasser à l'aide d'un cut pour ne garder que la première partie de chaque ligne.

La dernière étape, une fois le texte segmenté importé dans le trameur, était alors d'inclure lors de la recherche des cooccurrents les signes de ponctuations japonais.

Loïc Galand.