B. Habert
Projet Communautés

Cours 4

Adapter les données à une chaîne de traitement

Au cours 1, on a utilisé une chaîne de traitement prenant en entrée les lemmes d'une suite de documents et considérant chaque document comme une fenêtre.
On a constaté que le document constituait une fenêtre très vaste, produisant des cooccurrences très nombreuses.
Le cours 3 a présenté l'information mutuelle comme moyen d'élaguer dans les cooccurrences, en ne gardant que les couples où l'attirance est la plus forte entre les deux pôles. Par ailleurs, la chaîne autour de l'information mutuelle permet d'autres élagages.

Format cours 1 vers format informationn mutuelle


Le premier objectif de la séance est de ramener les données du cours 1 à celles qu'attend la chaîne autour de l'information mutuelle. Et d'utiliser cette chaîne sur ces données ainsi ajustées.

Il s'agit donc de passer de :
<doc>  <par.>   <phrase><lemme> <forme> <cat>   <POS>
683121  2       4       le      L'      DetMS   D
683121  2       4       accalmie        accalmie        NomFS   N
683121  2       4       permettre       devrait permettre       VCONJS  V
683121  2       4       de      de      Prep    O
683121  2       4       récupérer       récupérer       VINF    V
683121  2       4       de      d'      Prep    O
683121  2       4       autre   autres  AdjFP   A
683121  2       4       trace   traces  NomFP   N
683121  2       4       de      de      Prep    O
683121  2       4       fioul   fioul   NomMS   N
...

à
le_D
accalmie_N
permettre_V
de_O
récupérer_V
de_O
autre_A
trace_N
de_O
fioul_N
en_O
mer_N
,_T
au moyen de_O
...
fioul_N
ce_D
week_N
-_T
end_N
<FinFenetre/>
un_D
village_N
destiner_V
à_O
noyer_V
sous_O
le_D
...

Transformation

perl PhraseLM10AutourPivot2FenetresPourIM.pl <fichier cours 1>  > <fichier résultat>

Attention : ce qui est entre chevrons est une méta-notation. Le > isolé indique la redirection du résultat du programme de transformation sur le fichier du cours 1 vers le fichier résultat.

Fichier résultat


Objectif : obtenir ce fichier résultat, et lui appliquer l'ensemble de la chaîne de traitement de l'information mutuelle. On s'aidera du mémento en ligne à la fin du cours sur l'information mutuelle.

Boîte à outils


CooccurrencesDansFenetre2IM.pl
CooccurrencesDansFenetre2IMWin.pl

FaitCooccurrencesDansFenetre.pl
FaitCooccurrencesDansFenetreWin.pl

FaitIndexDeFenetres.pl
FaitIndexDeFenetresWin.pl

GraphML2PajekWin.xsl
GraphML2Pajek.xsl

IM2GraphML.pl
IM2GraphMLWin.pl

PhraseLM10AutourPivot2FenetresPourIM.pl
PhraseLM10AutourPivot2FenetresPourIMWin.pl

A titre de comparaison, sont fournis les résultats :
  1. index
  2. cooccurrences
  3. information mutuelle
  4. graphe GraphML
  5. graphe pour Pajek
  6. visualisation du graphe avec Pajek
Visualisation avec Pajek des cooccurrences de 'barrage' filtrées par l'information mutuelle

Faire plusieurs essais en variant :
  1. catégories retenues ;
  2. taille de la sous-fenêtre ;
  3. cooccurrence minimale ;
  4. distance moyenne maximale ;
  5. information mutuelle minimale.

Comment faire un choix raisonnable pour la valeur plancher de l'information mutuelle ?

Adapter les dépendances Syntex à la chaîne Information mutuelle

En reprenant le cours 2, déterminer ce que doit faire un programme qui adapterait les dépendances Syntex pour qu'on puisse se servir de l'information mutuelle pour garder les dépendances les plus pertinentes.