B. Habert
Projet Communautés
Cours 4
Adapter les données à une
chaîne de traitement
Au cours 1, on a utilisé une chaîne de traitement prenant
en entrée les lemmes d'une suite de documents et
considérant chaque document comme une fenêtre.
On a constaté que le document constituait une fenêtre
très vaste, produisant des cooccurrences très nombreuses.
Le cours 3 a présenté l'information mutuelle comme moyen
d'élaguer dans les cooccurrences, en ne gardant que les couples
où l'attirance est la plus forte entre les deux pôles. Par
ailleurs, la chaîne autour de l'information mutuelle permet
d'autres élagages.
Format cours 1 vers format informationn mutuelle
Le premier objectif de la séance est de ramener les
données du cours 1 à celles qu'attend la chaîne
autour de l'information mutuelle. Et d'utiliser cette chaîne sur
ces données ainsi ajustées.
Il s'agit donc de passer de :
<doc> <par.> <phrase><lemme>
<forme> <cat> <POS>
683121 2
4 le
L' DetMS D
683121 2
4
accalmie
accalmie NomFS N
683121 2
4
permettre devrait
permettre VCONJS V
683121 2
4 de
de Prep O
683121 2
4
récupérer
récupérer
VINF V
683121 2
4 de
d' Prep O
683121 2
4 autre autres
AdjFP A
683121 2
4 trace traces
NomFP N
683121 2
4 de
de Prep O
683121 2
4 fioul
fioul NomMS N
...
à
le_D
accalmie_N
permettre_V
de_O
récupérer_V
de_O
autre_A
trace_N
de_O
fioul_N
en_O
mer_N
,_T
au moyen de_O
...
fioul_N
ce_D
week_N
-_T
end_N
<FinFenetre/>
un_D
village_N
destiner_V
à_O
noyer_V
sous_O
le_D
...
Transformation
perl PhraseLM10AutourPivot2FenetresPourIM.pl <fichier cours 1>
> <fichier résultat>
Attention : ce qui est entre chevrons est une méta-notation. Le
> isolé indique la redirection du résultat du
programme de transformation sur le fichier du cours 1 vers le fichier
résultat.
Fichier résultat
Objectif : obtenir ce fichier résultat, et lui appliquer
l'ensemble de la chaîne de traitement de l'information mutuelle.
On s'aidera du mémento en ligne à la fin du cours sur
l'information mutuelle.
Boîte à outils
CooccurrencesDansFenetre2IM.pl
CooccurrencesDansFenetre2IMWin.pl
FaitCooccurrencesDansFenetre.pl
FaitCooccurrencesDansFenetreWin.pl
FaitIndexDeFenetres.pl
FaitIndexDeFenetresWin.pl
GraphML2PajekWin.xsl
GraphML2Pajek.xsl
IM2GraphML.pl
IM2GraphMLWin.pl
PhraseLM10AutourPivot2FenetresPourIM.pl
PhraseLM10AutourPivot2FenetresPourIMWin.pl
A titre de comparaison, sont fournis les résultats :
- index
- cooccurrences
- information
mutuelle
- graphe
GraphML
- graphe
pour Pajek
- visualisation du graphe avec Pajek

Faire plusieurs essais en variant :
- catégories retenues ;
- taille de la sous-fenêtre ;
- cooccurrence minimale ;
- distance moyenne maximale ;
- information mutuelle minimale.
Comment faire un choix raisonnable pour la valeur plancher de
l'information mutuelle ?
Adapter les dépendances Syntex à la chaîne
Information mutuelle
En reprenant le cours 2, déterminer ce que doit faire un
programme qui adapterait les dépendances Syntex pour qu'on
puisse se servir de l'information mutuelle pour garder les
dépendances les plus pertinentes.