Projet Boîtes A Outils

Ce projet a pour but de créer une chaîne de traitement, capable de réaliser des graphes de mots à partir de flux RSS. Nous avons sélectionné les fils RSS du journal Le Monde de l'année 2009, rubrique International. Chacun de ces fils était accompagné de sa version "textuelle" au format Lexico3. Pour passer des flux RSS aux graphes, nous avons réalisé quatre étapes successives que nous décrirons dans ce site. Le but ultime de notre projet, présenté dans la rubrique "Des fils aux graphes", est de créer un web service, permettant à un internaute lambda, de pouvoir générer à partir de fils RSS et d'un motif préalablement choisi, un graphe représentatif du motif en question dans le corpus.

Choix de la rubrique

La rubrique International a été choisie, car nous nous intéressions au contexte de la crise financière. Nous désirions nous interroger sur l'évolution, au cours de l'année 2009, de la crise financière par le journal quotidien Le Monde.

Qu'est-ce-qu'un fil RSS?

Les fils RSS sont des flux de contenus gratuits en provenance de sites internet. Ils incluent les titres des articles, des résumés et des liens vers les articles intégraux à consulter en ligne. Les dernières informations publiées sur Le Monde.fr peuvent ainsi venir enrichir automatiquement votre site internet ou compléter vos sources d'informations déjà agrégées via un logiciel de lecture des flux RSS.

Basiquement, un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information. Cela permet ainsi à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l'actualité en ligne.

Organisation des fils RSS du journal Le Monde

Les fils sélectionnés sont organisés dans une arborescence, qui part de la racine, dans notre cas '2009', puis parcourt les mois et les jours. Pour chaque jour, un dossier '19-00-00' indique que les flux ont été récupérés à 19hre. Dans chaque dossier, on trouve l'ensemble des flux. Il y a pour chaque flux une version .xml et une version .txt.


 

Organigramme

Le schéma ci-dessous représente les étapes du projet, ainsi que les outils utilisés pour arriver aux graphes de mots.