Corpus


Constitution

Le corpus utilisé est composé à partir des fils RSS du journal Le Monde rassemblés par Serge Fleury entre novembre 2006 et mars 2008.
Les fils sont composés de deux types de données :
- Surface : c'est à dire le titre de l'article, souvent un très bref résumé
- Profondeur : c'est à dire le contenu de l'article lié par le fil
Nous avons regroupé les archives en concaténant le contenu des années 2006, 2007 et 2008 en un fichier par rubrique. Puis nous avons utilisé un script perl pour ne récupérer que la surface pour finir par faire passer un script de "nettoyage" qui a traité les codages de caractères spéciaux (en retransformant par exemple, é en 'é'.

Répartition

Nous avons ensuite réparti les fichiers obtenus comme suit :

Wakako Ishibashi et Soizic Tharrault
- Cinéma
- Examens
- Municipales2007 [sic]
- Technologies

Ludivine Kuznik
- Environnement et Sciences
- Livres
- Rendez-Vous
- Voyages

Anne-Claire Minaux
- Culture
- France/Société
- Opinion

Quentin Peigné
- Economie
- International
- Politique

Karl Szymoniak
- A La Une
- Europe
- Médias
- Sports

Haut de page