Corpus Chronologique Le Monde

Phase 1 : 12 avril 2003 - 19 septembre 2006

Ce projet est composé de 2 sous-projets : Le Monde En Surface : architecture construite pour traiter les fils RSS mis à disposition sur le site Web du journal Le Monde (d’autres fils sont aussi traités dans cette architecture, en particulier celui du site de l’AFP) ; Le Monde Profond : architecture mise en œuvre pour construire et analyser un corpus chronologique de la version électronique du journal Le Monde.

Partie 1 « Le Monde en Surface ». L’architecture construite est composée de 2 modules. Le premier (« Fil(s) de presse ») correspond au module permettant de traiter un fil de presse donné (au format RSS) et de construire des traitements sur le contenu de ce fil (au départ, un « nuage de mots »). Le second (« Archivage des Fils de Presse ») correspond au module permettant d’archiver les fils de manière continue et automatique afin de constituer la mémoire de ces fils. Ce projet a commencé en Octobre 2005 i.e. on dispose à ce jour d'un corpus de fils RSS archivés toutes les heures et d’une série d’outils de traitement de ces fils (en développement).

Partie 2 « Le Monde Profond ». Chaque version quotidienne du journal Le Monde est régulièrement récupérée sur le site web du journal : dans sa version HTML et dans sa version PDF. La version HTML du journal est traitée pour produire différents états : un état quotidien des contenus textuels du journal sous la forme d'une version normalisée au format XML et une version compatible avec le logiciel Lexico3 ; des états statistiques quotidiens. Les états quotidiens des contenus textuels sont ensuite nettoyés et concaténés pour produire des corpus chronologiques couvrant l'ensemble des dates de récupération. Le démarrage de ce processus a commencé le 12 avril 2003 et s'est arrêté le 19 septembre 2006 (à cette date, seule la version PDF du journal est disponible aux abonnés) i.e. on dispose à ce jour d'un corpus regroupant l'ensemble des versions électroniques de chaque journée couvrant cette période.

 

Phase 2 : depuis le 20 novembre 2006

Ce projet est une extension du projet précédent dont le volet " Monde Profond " a été interrompu le 19/09/2006.

Partie 1 « Le Monde en Surface ». Projet similaire à celui présenté dans la Phase 1.

Partie 2 « Le Monde Profond ». Ce projet ne prend plus appui sur la version électronique du journal mise à la disposition des abonnés. Il s'articule autour de l'archivage en parallèle des fils RSS et des articles complets associés aux items décrits dans les fils. Dans la phase précédente, une première étape expérimentale a été mise en œuvre pour construire la version "enrichie" appelée le Monde semi-Profond. Le processus initialement mis en place a été "optimisé" et permet désormais d'archiver complètement les articles longs associés aux fils.
Le démarrage de ce processus a commencé le 20 novembre 2006.

 

Accès restreint
Portail TAL-P3
Projets "Fils de Presse"

Contact : serge.fleury@univ-paris3.fr | Projet CLMC | SYLED/CLA2T