FILTRAGEExtrait
des textes des
balises description des fils de presse : Le Monde et AFP Un
fichier volumineux divisé en
plusieurs
sorties.
|
ETIQUETAGE-CORDIAL
Etiquetage
des textes
avec
cordial |
Information Mutuelle
|
Terminologie aux Graphe
|
Extrait le
lemme et sa
catégorie sous forme un item par ligne Mesurer la
valeur de
l’information mutuelle des termes afin de former un graphe |
Extraction
des patrons
des morpho-syntaxique (NC[A-Z]+ADJ[A-Z]+) Des textes
aux graphes Entrée fichiers
de termes patrons Sortie :patrons
au format graphml Application
une feuille
de style pour charger le résultat sous PAJEK pour un graphe |
While (<>) {
If (/200[5-6] [A-Z]
[a-z] [0-9] [0-9] [0-9]
[0-9]
[0-9] [0-9] [0-9]+$/)
{
Chomp($_);
Print $_;
Print
" # " ;
}
}
Des textes aux graphes
Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.Nous avons utilisé les programmes fournis pour lancer cette chaîne.
Voici les paramétrages pour obtenir les graphes.<!--[if
!supportEmptyParas]--> les
catégories
Nom commun et Adjectif avec une distance plafond de 2 mots et une
cooccurrence plancher de 1.<!--[endif]-->
<!--[if !supportEmptyParas]--> une fréquence plancher de 20.
<!--[if !supportEmptyParas]--> une distance plafond de 2 et une IM plancher de 3.0
On élabore le graphe de l’information mutuelle avec la valeur ci-dessus pour le décembre 2005.pajek2