BOÎTE À OUTILS 4

Représentation graphique des résultats de la recherche des patrons morphosyntaxiques.

A partir des résultats obtenus dans la boîte à outils 3, nous avons une liste de mots correspondant à des patrons morphosyntaxiques. L'objectif de cette boîte à outils est d'en faire une représentation graphique. Cette boîte à outils ne s'applique qu'aux résultats au format texte brut étiquetés par CORDIAL.

Le programme patron2graphe-2.0 permet de donner les liens entre les mots faisant partie des résultats en ajoutant la possibilité de se concentrer sur certains mots.

Le programme prend comme premier argument l'encodage des fichiers d'entrée, puis le fichier contenant les résultats de la recherche des patrons morphosyntaxiques puis en troisième argument, optionnel, un fichier contenant la recherche d'un motif particulier.

A titre d'exemple, si on souhaite afficher l'ensemble des liens entre tous les mots du fichier, on utilise la commande suivante :

patron2graphe.exe "encodage" resultats_patrons.txt

On peut aussi affiner nos recherches et choisir de ne sortir que les mots contenant "Paris". On va alors au préalable écrire "MOTIF=\bParis" dans le fichier motif-iso-8859-1.txt et on utilise alors la ligne de commande suivante :

wine patron2graphe.exe "iso-8859-1" resultats_patrons.txt motif-iso-8859-1.txt

Notre première idée fut d'utiliser comme motifs (ou mots-clefs) les noms des rubriques - Monde, France, Europe. Cependant, les résultats de cooccurrence obtenus se révèlent très pauvres :

Ainsi, nous avons décidé de procéder autrement.

Tout d'abord, après avoir récupéré les patrons en format .txt , nous les avons importés dans TXM, un logiciel de textométrie, se servant d'un corpus étiqueté (ou étiqueté automatiquement par TXM avec treetagger) pour l'analyser mot à mot. Nous l'avons utilisé afin de calculer les plus hautes fréquences dans le fichier des patrons, et avons à chaque fois extrait les quatre ou cinq occurrences les plus élevées dans le corpus, sans tenir compte des mots asémantiques, bien sûr.
Une autre étape consistera par la suite à analyser les cooccurrences de ces mots à plus haute fréquence mais nons en parlerons dans une autre partie.
Après avoir extrait ces cinq mots, nous nous en sommes servis comme motifs dans patron2graphe. Par exemple pour le même fichier de la rubrique Europe, nous avons utilisé le mot-clé à plus haute fréquence : migrants.

Nous obtenons le résultat suivant :

Il est devenu alors évident que l'on obtient des résultats bien plus satisfaisants avec cette seconde méthode.

Cependant, nous ne voulions pas abandonner l'idée d'utiliser comme mots-clés les noms des rubriques, en l'occurrence, Europe. Nous avons donc utilisé le stem de ces mots-clés, c'est-à-dire la racine "grammaticale" du mot. Nous avons donc entré le mot-clé europ dans le programme, en s'attendant à trouver tous les mots contenant ce stem. Voici le résultat :


En définitive, nous avons utilisé deux méthodes pour obtenir des résultats significatifs avec le programme de graphe, celle des occurrences MAX et celle des stem.
Mais nous n'oublions pas que l'absence de résultat est un résultat en soi...