Accueil Boîte à outils 1 Boîte à outils 2 Boîte à outils 3 Boîte à outils 4

Marianna Kucharski - Paris X Nanterre
Marguerite Leenhardt - Paris 3 Sorbonne Nouvelle

Présentation de la chaîne de traitement Boîtes à outils Boîtes à outils

Objectif

L'objectif de la série Boîte à outils, qui comporte 4 modules, est la mise en place d'un ensemble d'outils informatiques dont le but est de constituer une chaîne de traitement automatique applicable à une arborescence de répertoires dans lesquels sont stockés des fils de presse RSS.

Un fichier RSS est un fichier XML qui respecte une structure particulière: c'est une application XML spécifique.
Les fils RSS sont des flux de contenus gratuits en provenance de sites internet. Ils donnent de l'information sur leur contenu et permettent d'en suivre l'évolution des mises à jour.
RSS est le sigle de Really Simple Syndication; on parle de ’syndication de contenus’ en tant que c’est un procédé consistant à rendre disponible une partie du contenu d’un site web afin qu’elle soit utilisée par d’autres sites.

Les principaux intérêts de ce travail relèvent notamment de la prise en mains de logiciels, tels que Cordial, Treetagger ou encore Pajek, mais également de la mise à profit des cours de XML ainsi que l'utilisation du langage Perl.

De tels outils vont nous permettre de rendre compte des collocations de certaines formes à partir de patrons syntaxiques choisis. En effet, les contenus textuels des fils RSS, une fois filtrés, seront étiquetés, puis des patrons syntaxiques seront extraits afin de pouvoir représenter sous forme de graphes les proximités lexicales qu'ils entretiennent.

Mise en oeuvre

Boîte à outils 1
Filtrage du contenu textuel des fils RSS à l'aide d'un script perl.

Boîte à outils 2
Etiquetage du texte à l'aide de Tree-tagger d'une part et de Cordial d'autre part.

Boîte à outils 3
Extraction de patrons syntaxiques à partir des fichiers de texte étiqueté, à l'aide de requêtes XPath d'une part et d'un script Perl d'autre part.

Boîte à outils 4
Transformation des fichiers de patrons en graphes de proximités lexicales avec Pajek (utilisation du format Graphml).

Réalisation du rapport

Nous avons réalisé ce rapport à l'aide d'un éditeur HTML (Nvu). Par ailleurs, nous avons appris à utiliser une feuille de style CSS pour en améliorer la présentation.

N.B.: Firefox, bien qu'étant notre navigateur favori, n'ouvre pas correctement certains de nos fichiers XML (taille trop importante). Il est donc conseillé de lire ce rapport sous Internet Explorer.


Document made with Nvu