Introduction:

L'objectif  de ce travail est la réalisation d'un ensemble d'outils informatiques permettant d'automatiser le traitement des suites de fils de presse RSS stockés dans une arborescence de répertoires.

L’un des principaux intérêts de ces traitements est de se servir des logiciels comme Cordial, Treetagger, Pagex et les parseurs XML pour observer le comportement des groupes de mots dans les documents traités, puis faciliter l’exploitation et la compréhension des résultats en les présentant sous forme de graphes.

Le travail est divisé en un ensemble de boîtes à outils :

Boîte à outils 1:

Elle comporte le script Perl qui permet d’extraire le contenu des balises "description" des fils RSS  fournis puis  de regrouper les résultats dans un seul document xml. La tâche suivante consiste en la réalisation de l’étiquetage du contenu textuel de ce document avec Treetagger.

Boîte à outils 2 :

Finaliser l’étiquetage avec Treetagger et présenter le résultat sous format xml puis réaliser la même tâche avec Cordial, ensuite écrire des feuilles des styles XSLT qui permettent un affichage convenable des résultats.

Boîte à outils 3 :

Développer un programme perl qui extrait des suites de termes dont les catégories sont conformes aux listes de patrons morphosyntaxiques regroupées dans un fichier donné en argument, puis appliquer ce script sur le résultat de l’étiquetage avec Treetagger et l’adapter pour traiter les données produites par Cordial.
En raffinement, ajouter le script développé aux programmes déjà réalisés pour obtenir un seul outil qui donne en sortie, tous les résultats des traitements précédents.

Boîte à outils 4 :

À partir des listes des termes obtenues à l’aide des programmes de la Boîte à outils 3, construire un graphe dont les nœuds sont les mots de la liste. Deux nœuds sont reliés par un arc si les termes qu’ils représentent apparaissent ensemble dans la liste. On représente le graphe à l’aide d’un fichier au format graphml qui est un langage de représentation des graphes compatible XML, puis à l’aide d’une feuille de style XSLT on le transforme au format Pajek. Le logiciel Pagek produit une image en trois dimensions du graphe. Il permet, en plus, d’effectuer les retouches nécessaires pour obtenir une représentation plus détaillée du graphe.

Boîte à outils 5:

Utiliser des fichiers étiquetés des étapes précédentes pour produire un document contenant sur chaque ligne une chaîne « terme_catégorie », diviser ce document en parties appelées fenêtres, calculer pour les couples des termes présents dans les fenêtres la mesure IM (information mutuelle), puis produire un graphe dont les noeuds sont les termes des fenetres et le poids de chaque arc est la valeur de l’IM entre ces termes.