Manger, une pratique culturelle et psychologique

M1 TAL-Projet encadré. Site de Fatma Soliman et Emmanuelle KELODJOUE


Le Trameur


La deuxième phase du projet après la création du tableau html est d’effectuer l’analyse statistique des occurrences et des cooccurrences des formes du mot "mange" ou "nourriture" en anglais, français et arabe puis créer des nuages de ces mots. Nous effectuerons une analyse des mots les plus fréquemment employés à côté de notre motif ( = co-fréquents), en utilisant le logiciel Le Trameur.


Définition du Trameur


On peut pousser encore plus l'analyse de nos données finales grâce à la textométrie, qui nous permet de compter des éléments textuels contenus dans un de nos fichier. Pour ce faire, on vas utiliser un logiciel appelé Trameur développé par M. Fleury. Ce logiciel va tout d'abord considérer notre fichier texte comme un contenant qui regroupe des unités élémentaires, afin de relever des séquences de caractères organisées. On chargera dans le Trameur les fichiers CONTEXTES-GLOBAUX et DUMPS-GLOBAUX de nos trois langues.
Le trameur est un logiciel de textométrie qui fonctionne sur windows.
Le Trameur est composé de deux élément: la Trame et le Cadre. La textométrie s’occupe du calcul des éléments (des contenus textuels) dans certaines zones de texte ou parmi des unités d’un texte. La Trame est un système de coordonnées sur le texte dans lequel chaque élément est associé à un numéro d’ordre. Elle permet de repérer des zones textuelles sur un corpus et de décrire les systèmes des zones (parties, paragraphes, phrases, sections, etc.). Les descriptions sur ces systèmes se trouvent dans une structure de données : le Cadre. Il faut aussi mentionner que le Trameur intègre le Treetagger (étiquetage des catégories grammaticales et lemmatisation). Le trameur considère le texte comme un ensemble de positions avec à chaque position une unité à identifier, tout en ayant la possibilité d’ajouter à chaque position une annotation (lemme, forme, catégorie,…)



Mode d'emploi

D'abord, il faut charger le texte à étudier via l'onglet 'Cadre',





et ensuite aller dans l’onglet « param » pour préciser au programme qu’on travaille en utf-8, pour choisir la langue de travail et pour rajouter le symbole $ dans les délimiteurs.



Le fichier global des contextes est le résultat d'une concaténation de lignes contenant les contextes du mot, extraites de plusieurs sites. Chaque ligne correspond à une ligne qui contient le motif. Mais il n'y a pas forécement de la continuation entre les lignes. Il serait erroné de considérer que le texte devrait s'analyser de façon intégrale, sans délimiteurs explicites entre chaque ligne. Ajouter un délimiteur sert à bloquer l'analyse travers les contextes, et à empêcher de trouver des co-occurrents non pertinents.
Ici, par exemple, nous avons mis le signe “$” à la fin de chaque phrase pour bloquer les contextes (en faisant attention d'éliminer tous les '$' du texte avant de l'utiliser en tant que délimiteur).



Fichier Contexte Global Anglais>



Fichier contexte Global Français



Dans l'onglet Forme-Lemme, dans la partie Recherche forme, on cherche les mots clefs ou le motif avec les regexp.



Le motif en anglais
On cherche les mots " eat" ou "food" ou "nutrition"
\b[Ee]at|[Ee]at\b|\b[Ff]ood|[Ff]ood\b



Le motif en français

On cherche les mots: "mange" ou "mangeons" ou "mangez" ou "manger" ou "aliments"
Le regexp est:
\b[Mm]ange\b|\b[Mm]anger\b|\b[Mm]angeons\b|\b[Mm]angez\b|\b[Nn]ourriture\b





Le motif en Arabe

On cherche les mots: "الطعام" ou "نأكل" ou "يأكل" ou "يأكلون"
Le regexp est:
\bنأكل|نأكل\b|\bيأكل|يأكل\b|\bالطعام|الطعام\b|\bيأكلون|يأكلون\b





Le motif en Allemand

On cherche le mot: "essen"






L’onglet CONCORDANCE permet d’afficher les concordances des différentes annotations disponibles sur chacun des items de la Trame forme, lemme, catégorie, annotations complémentaires. Les concordances produites sont disponibles dans 2 sous-onglets distincts: un sous-onglet avec édition des items de la concordance, un sous-onglet permettant de trier les contextes de la concordance.
On voit dans les figures suivantes l'affichage édition + affichage tri



Concordance du fichier Anglais






Concordance du fichier Français





Concordance du fichier Arabe





Concordance du fichier Allemand





Les Cooccurrences


Le trameur nous permet aussi d’extraire les co-occurrents : les mots qui viennent souvent autour du mot choisi. Pourtant, il faut définir les contextes (fenêtres) dans lesquels le trameur va chercher les co-occurrents. Les contextes sont des phrases venant de l’extraction des lignes qui contiennent le pôle, mais comme nous avons vu, ces contextes sont une concaténation de phrases. Donc il est important de modifier le fichier de départ en insérant le délimiteur de lignes, et le charger par l'onglet Cadre puis ajouter dans l'onglet "Param" le caractère choisi comme délimiteur, ici c'est le symbole $.
Ensuite, il faut aller dans l’onglet « cooc », taper le mot pôle et préciser un nombre pour la co-freq (retenir un mot qui existe nombre de fois avec le pôle) et le seuil (indice de spécificité qui indique le poids du pôle dans le texte, les co-occurent les plus pertinents.) et enfin cliquer sur « calcul co-occurrents forme pôle ».



Cooccurrence en Anglais

Le résultat pour notre fichier anglais est comme suit :
On cherche le pôle en anglais avec regexp:
\beat\b|\bfood\b|\bEat\b|\bFood\b






Cooccurrence en Français

Le résultat pour notre fichier français est comme suit :
On cherche le pôle en français avec regexp
\bmange\b|\bnourriture\b






Cooccurrence en Arabe

Le résultat pour notre fichier Arabe est comme suit :
On cherche le pôle en Arabe
يأكلون






Cooccurrence en Allemand

Le résultat pour notre fichier Allemand est comme suit :
On cherche le pôle en Allemand
essen




Pour plus d'informations, cliquez ici