Projet Nuage - Etiquetage sous CORDIAL
Li-chi WU (Paris III PluriTAL)
Présentation du processus d'étiquetage CORDIAL
Filtrage
Extrait
le texte des balises description
Nous
avons modifié le script pour Cordial du projet Boites à outils et l’avons
appliqué à l'ensemble de corpus Nuage de la version 1 (fils + nuages). Nous
avons d’abord fait trois sorties de fichiers textes qui contiennent tous les
contenus textuels des balises description : un fichier sur l'ensemble du
corpus de la version 1 (l'année 2005 et 2006), deux autres année par année
(l'un pour l'année 2005, l'autre pour l'année 2006).
Problèmes rencontrés
Nous
avons essayé de lancer trois fichiers sous Cordial, malheureusement, cela n'a
pas marché car tous les fichiers texte sont volumineux. Pour faciliter le
travail sous Cordial, nous voulions avoir un fichier moins volumineux, aussi
avons-nous décidé d'avoir plusieurs fichiers présenté par mois, voire par quinzaine,
à partir des fichiers sorties textes (les fichiers de 2005 et de 2006).
Avant de
découper les deux fichiers alourdis, nous avons créé un petit programme
ci-dessous pour que des fils (des textes dans les balises ’description’) soient
présentés par une seule ligne. Cela permet de mieux lancer le programme de
l’étape suivant.
while (<>) {
if
(/200[5-6][A-Z][a-z][a-z][0-9][0-9][0-9][0-9][0-9][0-9][0-9]+$/) {
chomp($_);
print $_;
print
" # ";
$_=<>;
print;
}
}
Ensuite,
nous avons lancé la commande d'Egrep pour récupérer la partie ne contenant que
les contenus d'un mois, lorsque le fichier était encore trop volumineux sous
Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons
étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait
remarquer qu’il n’acceptait que le fichier de moins de 5 M.
Le
fichier étiqueté est présenté un mot par ligne avec le paramétrage de
l’étiquetage : Lemmes,
Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans
codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est
indiqué ainsi : mot lemme patron.
Il n’est
pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc
découpé en plusieurs fichiers sorties nommés par date.
Voici le programme lancé.
Extractiondes patrons morpho-syntaxiques
A l’aide du programme d’extraction du projet
précédent de boites à outils, nous obtenons des fichiers contenants tous les
suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de
problème dans le processus des traitement. Mais le processus se ralentit à
cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque
fichier.Des textes aux graphes
Les
extractions patrons obtenus dans l’étape précédent vont être représenté sous
forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de
traiter des données de réseau de grande taille.
On transforme
les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un
programme. Ces fichiers graphml sont convertis au format .net grâce à la
feuille de style. Pajek est alors utilisé pour former des graphes.
On élabore le graphe d’un patron Nom + Adj pour
le mois novembre 2005.
Information mutuelle
Nous avons écrit un programme perl afin d’avoir
une entrée fichier qui convient pour lancer dans cette partie.
Source : fichiers étiquetés
Voici le programme :
while ($l=<>) {
# récupération des lemmes $1 et leur catégories $2 dans tous les
occurrences
if ($l=~/[^\t]+\t([^\t]+)\t([^\t]+)/) {
$a=$1;
$b=$2;
$b=~s/
//g;
#
impression d’un tiret bas entre le lemme et sa catégorie
print $a."_".$b;
}
if
($l=~/#/) {
#
<FinFenetre/> marque les fins des fenêtres
print "<FinFenetre/>\n";
}
}
Nous avons utilisé les programmes fournis pour lancer cette
chaîne.
Voici les paramétrages pour obtenir les graphes.
FaitCooccurrencesDansFenetre.pl
les catégories Nom commun et Adjectif avec une
distance plafond de 2 mots et une cooccurrence plancher de 1.
CooccurrencesDansFenetre2IM.pl
une fréquence plancher de 20.
IM2GraphML.pl
une
distance plafond de 2 et une IM plancher de 3.0
On élabore le graphe de l’information mutuelle avec
la valeur ci-dessus pour le mois novembre 2005.