Boîte à outils 5

Sommaire:

Information mutuelle .

Structure des fenêtres.

Les fichiers d'index et des cooccurrences.

Le calcul de l'information mutuelle.

Génération des fichiers Graphml et Pajek.

I. Information mutuelle :

L’information mutuelle mesure l'attirance entre deux mots x et y, elle est donnée par la formule :
IM(x,y) = log(p(x,y) / p(x)p(y)).
p(x,y) probabilité d’apparition de la pair de mots (x,y).
p(x) probabilité d’apparition du mot x.
p(y) probabilité d’apparition du mot y.

la probablité d'un element T: ( T est un mot ou une pair de mots)
p(T) = fréquence(T) / nombre total de mots
Le but est de calculer la valeur de l’information mutuelle entre les mots qui appartiennent
à des catégories déterminées, puis de générer un graphe pajek décrivant le résultat.

Haut de page

II. Structure des fenêtres:

Pour faire le calcul on divise le corpus en fenêtres.
Dans les fenêtres, on trouve sur chaque ligne un terme et sa catégorie séparés par _.
Pour séparer les fenêtres on utilise la balise <FinFenetre/>

II.1 Treetager :

Une fenêtre regroupe le texte des balises description d’un fichier xml.
Les principales catégories Treetagger seront remplacées:
NOM sera remplacé par N
'PUN' sera remplacé par 'Y'
'DET' sera remplacé par 'D'
'ADJ' sera remplacé par 'A'
‘SENT' sera remplacé par 'Y'
'VER' sera remplacé par 'V'
'NAM' sera remplacé par 'N'
Le programme fich-fenetres.pl crée le fichier des fenêtres.

a)Usage : perl fich_fenetres.pl fichier_texte_étiqueté fichier de sortie

b) Entrées : le texte etiqueté produit par Treetagger.

c) Sortie : le fichier des fenêtres (le résultat).

II.2 Cordial :

Le programme fich-fenetrcor.pl génère le fichier des fenêtres pour le cas de Cordial.
Chaque fenêtre contient 100 lignes, et on effectue les remplacements suivants :
NC   tous les types de noms communs.
NP   les noms propres.
V    les verbes.
A    les adjectifs
Y    les ponctuations
R    les adverbes.
le fichier obtenu est disponible ici.

Haut de page

III. Le fichier index :

Calculer la fréquence de chaque terme (occurrence) et générer un fichier xml qui
contient des balises de la forme : < t c="occurrence" f="Valeur de la fréquence"/>

Pour faire le calcul on utilise le programme fourni FaitIndexDeFenetres.pl

Usage : perl FaitIndexDeFenetres.pl fichier_des_fenetres> fichier de sortie

Le résultat pour Treetagger est disponible ici.
Le résultat pour Cordial est disponible ici.

IV. Le fichier des cooccurrences :

Dans cette partie on calcule les cooccurrences, au niveau des fenêtres, des termes dont les catégories
sont données en arguments.
Le fichier XML résultat contient des balises de la forme :
< t c1="occurrence" c2="occurrence2" f="co-fréquence" dm="distance moyenne"/>
La distance est le nombre de mots qui sépare les deux occurrences.
On utilise programme fourni : FaitCooccurrencesDansFenetre.pl

Usage : perl FaitCooccurrencesDansFenetre.pl fichier_des_fenetres catégories distance plafond cooccurrence plancher> fichier de sortie

Les categeries sont séparées par la barre verticale
Le résultat pour Treetagger est disponible ici.
Le résultat pour Cordial est disponible ici.

V. Calcul de l'information mutuelle:

À partir des fichiers obtenus à l’aide des programmes précédents, on calcule
l’information mutuelle en utilisant le programme fourni CooccurrencesDansFenetre2IM.pl

Usage : perl CooccurrencesDansFenetre2IM.pl fichier_index fichier_coocurences fréquence plancher> fichier de sortie

Le résultat pour Treetagger est disponible ici.
Le résultat pour Cordial est disponible ici.
Les paramètres utilisés sont ceux vus en cours (fréquence plancher=5).

VI. Génération du fichier graphml:

À l’aide du programme IM2GraphML.pl on génère le graphe GML :

Usage : perl IM2GraphML.pl fichier_xml_IM distance plafond IM plancher> fichier de sortie

Le résultat pour Treetagger est disponible ici.
Le résultat pour Cordial est disponible ici.

Haut de page

VII. Génération du graphe pajek:

À l’aide de la feuille de style fournie, on génère les fichiers pajek :
Pour le cas de Treetagger :(voir fichier)

Pour le cas de Cordial :(voir fichier)

Haut de page