Fichiers à
télécharger:

Boîte A Outils 4

Objectif

Le but de cette dernière boîte à outils est d'obtenir, à partir des patrons syntaxiques extraits, de jolis graphes permettant de visualiser de façon plus lisible et structurée, les informations nécessaires à l'analyse des patrons syntaxiques.

Traitement

Pour réaliser ces graphes, nous lançons l'application "patron2graphe.exe" extrait du Trameur, qui prend en entrée les fichiers de patrons obtenus par l'une des trois méthodes précédentes, un fichier contenant le motif à chercher, pour notre étude le motif est "\bcris" et produit en sortie un graphe.

Cette application s'utilise en ligne de commande.
Il faut taper : patron2graphe.exe "codage" FichierEnEntree FichierContenantLeMotif
Le motif est facultatif. Quand on le met, on évite d'obtenir le graphe de toutes les formes.

1. Pour afficher tous les noeuds du graphe, nous procédons ainsi :
patron2graphe.exe "iso-8859-1" patrons-1.txt
2. Pour afficher uniquement des noeuds obtenus par filtrage préalable du motif dans les patrons, nous tapons la commande suivante:
patron2graphe.exe "iso-8859-1" patrons-1.txt motif-iso-8859-1.txt
Nous décidons de placer directement une commande dans un script perl, lance.pl, qui nous permet alors de lancer l'exécution du programme:
system "./patron2graphe.exe ISO-8859-1 nomprep_extr.txt motif.txt";

Résultat

Graphe issu de Treetagger

treetagger



Graphe issu de Cordial

cordial

Comparaison

Les deux graphes générés, bien que très similaires, sont différents sur quelques points. Le graphe généré par la méthode Cordial inclut certains termes que l'on ne retrouve pas dans le graphe généré par la méthode Treetagger. Par exemple, "dette de 1929", "crise boursière" etc. A contrario, certains termes présents dans le graphe généré par la méthode Treetagger ne se retrouvent pas dans le graphe généré par la méthode Cordial : "crise du lait", "crise du crédit","crise du gas" etc.
Cela nous amène à penser que les fichiers générés dans la BAO3 seraient légèrement différents. Ces quelques différences ne sont cependant pas rédhibitoires puisqu'elles sont vraiment minimes. Les deux méthodes semblent donc assez performantes pour réaliser ce type de traitement.

La méthode la plus complète reste tout de même la méthode "Treetagger", puisque c'est sur ce graphe qu'on décèle le plus d'informations pertinentes.