Projet Nuage Etiquetage sous CORDIAL

Oganga anne(master TAL)                                                              


Présentation du processus d’étiquetage CORDIAL

FILTRAGE

Extrait des textes des balises description des fils de presse : Le Monde et AFP

Un fichier volumineux  divisé en plusieurs sorties.                                                                                                                                                                                                                           




ETIQUETAGE-CORDIAL

Etiquetage des textes avec cordial

Plusieurs sorties du même fichier-classement du 1-15 ou bien un mois entier. Etiquetage sous Cordial.   
                                                                                                                                         





Information Mutuelle

Terminologie aux Graphe

Extrait le lemme et sa catégorie sous forme un item par ligne
 

Mesurer la valeur de l’information mutuelle des termes afin de former un graphe

Extraction des patrons des morpho-syntaxique

(NC[A-Z]+ADJ[A-Z]+)

 

Des textes aux graphes

Entrée fichiers de termes patrons

Sortie :patrons au format graphml

Application une feuille de style pour charger le résultat sous PAJEK pour un graphe




While (<>)    {

If  (/200[5-6]  [A-Z] [a-z] [0-9] [0-9] [0-9]  [0-9]  [0-9]  [0-9]  [0-9]+$/) {

Chomp($_);

Print $_;

Print " # " ;

}

}


Ensuite, nous avons lancé la commande d'Egrep pour récupérer la partie ne contenant que les contenus d'un mois, lorsque le fichier était encore trop volumineux sous Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait remarquer qu’il n’acceptait que le fichier de moins de 5 M.

Le fichier étiqueté est présenté un mot par ligne avec le paramétrage de l’étiquetage : Lemmes, Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est indiqué ainsi : mot lemme patron.

Il n’est pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc découpé en plusieurs fichiers sorties nommés par date.

Voici le programme lancé.


Extractiondes patrons morpho-syntaxiques

A l’aide du programme d’extraction du projet précédent de boites à outils, nous obtenons des fichiers contenants tous les suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de problème dans le processus des traitement. Mais le processus se ralentit à cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque fichier.

Des textes aux graphes

Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.

On transforme les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un programme. Ces fichiers graphml sont convertis au format .net grâce à la feuille de style. Pajek est alors utilisé pour former des graphes.


On élabore le graphe d’un patron Nom + Adj pour le mois Décembre 2005.pajek1



Information mutuelle

Nous avons écrit un programme perl afin d’avoir une entrée fichier qui convient pour lancer dans cette partie.

Source : fichiers étiquetés


Voici le programme :

while ($l=<>) {

#  récupération des lemmes $1 et leur catégories $2 dans tous les occurrences
if ($l=~/[^\t]+\t([^\t]+)\t([^\t]+)/) {
    $a=$1;
    $b=$2;
    $b=~s/
//g;

# impression d’un tiret bas entre le lemme et sa catégorie
    print $a."_".$b;
} <!--[if !supportEmptyParas]--> <!--[endif]-->
if ($l=~/#/) {
<!--[if !supportEmptyParas]--> <!--[endif]-->
# <FinFenetre/> marque les fins des fenêtres
  print "<FinFenetre/>\n";
   }
}

Nous avons utilisé les programmes fournis pour lancer cette chaîne.

Voici les paramétrages pour obtenir les graphes.

FaitCooccurrencesDansFenetre.pl

<!--[if !supportEmptyParas]--> les catégories Nom commun et Adjectif avec une distance plafond de 2 mots et une cooccurrence plancher de 1.<!--[endif]-->

CooccurrencesDansFenetre2IM.pl

<!--[if !supportEmptyParas]--> une fréquence plancher de 20.

IM2GraphML.pl

<!--[if !supportEmptyParas]--> une distance plafond de 2 et une IM plancher de 3.0

On élabore le graphe de l’information mutuelle avec la valeur ci-dessus pour le décembre 2005.pajek2