Boîte à outils 4 Retour

Sommaire:

I. Objectif du travail:

À partir des suites de termes obtenues à l’aides des programmes de la boite à outils 3,
construire des graphes qui permettent une visualisation claire des relations entre les termes,
cette représentation nous permet de tirer des conclusions sur le sens des mots et les relations
entre ces mots. Mais avant d’utiliser les outils pour construire des graphes, une présentation
de ce concept est indispensable.

II. Principe des graphes:

Un graphe est un ensemble de nœuds qui peuvent être reliées par des liens appelés « arcs » ou «arêtes»:

Un graphe orienté est un graphe dont les arêtes sont orientées :

Haut de page

II.1Le format graphml:

Graphml est un langage de type XML qui est spécialement conçu pour représenter les graphes.
La balise « key » permet de définir des types de données à associer aux nœuds et aux arêtes.
La balise « node » permet de définir des nœuds.
La balise « edge » permet de définir des arêtes.
La balise « data » permet de définir des données dont les types sont déjà décrits par la balise key.
L’attribut « id » identifie, d’une manière unique, les nœuds et les arêtes.
Les attributs « source » et « target » permettent de définir les nœuds de départ et d'arrivée d’une arête.

II.2 Le format Pajek:

Pajek est un logiciel, qui permet de traiter et de visualiser des données de réseaux de grande taille.
Dans un fichier format Pajek, on donne la liste tous les nœuds identifiés par des numéros, puis
la liste de toutes les arêtes.
Une arête est définie par les numéros des nœuds de départ et d’arrivée, on peut
indiquer,en plus, des poids pour les arêtes.

Exemple : Representer le graphe suivant: ( dans cet exemple les arêtes n’ont pas de poids)

Haut de page
La representation Graphml:

<?xml version="1.0" encoding="iso-8859-1"?>
<graphml>
<key id="d0" for="node" attr.name="nom" attr.type="string"/>
<graph edgedefault="undirected">
<node id="1"><data key="d0">N1</data></node>
<node id="2"><data key="d0">N2</data></node>
<edge source="1" target="2"></edge>
<node id="3"><data key="d0">N3</data></node>
<edge source="1" target="3"></edge>
<node id="4"><data key="d0">N4</data></node>
<edge source="1" target="4"></edge>
<edge source="3" target="4"></edge>
<node id="5"><data key="d0">N5</data></node>
<edge source="3" target="5"></edge>
<edge source="2" target="3"></edge>
<edge source="2" target="5"></edge>
<edge source="4" target="5"></edge>
</graph>
</graphml>

La representation Pajek:

*Vertices 5
1 "N1"
2 "N2"
3 "N3"
4 "N4"
5 "N5"
*Edges
1 2
1 3
1 4
3 4
3 5
2 3
2 5
4 5

Le graphe obtenu:

Haut de page

III. Le graphe des mots:

On associe un graphe à la listes des termes de la boîte à outils 3:
À chaque mot correspond un nœud.
Deux mots génèrent une arête si ils apparaissent, au moins, une fois ensemble.
Le nombre de fois que les deux mots apparaissent ensemble représente le poids de l’arête.

Pour obtenir le fichier graphml, on utilise le programme patron2graphml.pl

a)Usage : perl   patron2graphml.pl    fichier_des_termes

b) Entrées : Le fichier de termes issus de la boîte à outils Série 3.

c) Sortie : Un fichier graphml.

d) Source :Le programme commenté est disponible ici .

Pour générer le fichier pajek, on utilise la feuille de style fournie GraphML2Pajek.xsl.
On réalise cette opération à l’aide du processeur AltovaXSLT développé par Altova. (telecharger)

Haut de page
Le programme patron2graphml.pl est appelé pour produire le fichier graphml, immédiatement
après la génération des listes de termes par les programmes de la boîte à outils3.

Le schéma suivant décrit ce fonctionnement :

IV. Utilisation des outils:

À partir de la liste de termes gnerée par le programme trouve_Treetagger.pl de la boite à outil 3,
on obtient le fichier graphml.
À l’aide de la feuille de style et d’AltovaXSLT on crée le fichier pajek

Le logiciel pajek génère le graphe suivant :(arborescence 2005/ et Treetagger)

Le fichier étiqueté fourni (taille 2 mo), produit le graphe:

Le graphe généré par la liste des termes obtenue en utilisant Cordial :

Haut de page