Le Monde en Surface et Le Monde profond

Le corpus

On distingue pour ce projet deux sous-corpus : Le Monde en surface et Le Monde profond. Le Monde en surface est composé des flux RSS récupérés de manière automatique et continue à partir du journal Le Monde. Le Monde profond se base sur l'archivage des flux RSS et des articles complets associés aux items décrits dans les flux.

Architecture

Voici l'architecture générale de notre corpus :

On part tout d'abord de la racine : 2008...



... puis, on traverse les mois ...



... puis, les jours ...



... puis, lon voit que les flux ont été récupérés à 19h00 ...



... et enfin, on accède au contenu textuel.



Les différentes rubriques

Voyons à présent le code de chaque rubrique :

Code = '0,2-3208,1-0,0.xml' = rubrique 'A la une'.
Code = '0,2-3476,1-0,0.xml' = rubrique 'Cinéma'.
Code = '0,2-3246,1-0,0.xml' = rubrique 'Culture'.
Code = '0,2-3234,1-0,0.xml' = rubrique 'Economie'.
Code = '0,2-3244,1-0,0.xml' = rubrique 'Environnement et Sciences'.
Code = '0,2-3214,1-0,0.xml' = rubrique 'Europe'.
Code = '0,2-3404,1-0,0.xml' = rubrique 'Examens'.
Code = '0,57-0,64-987718,0.xml' = rubrique 'Fil municipales et cantonales 2008'.
Code = '0,2-3210,1-0,0.xml' = rubrique 'International'.
Code = '0,2-3260,1-0,0.xml' = rubrique 'Livres'.
Code = '0,2-3236,1-0,0.xml' = rubrique 'Médias'.
Code = '0,2-3232,1-0,0.xml' = rubrique 'Opinion'.
Code = '0,57-0,64-823353,0.xml' = rubrique 'Politique'.
Code = '0,2-3238,1-0,0.xml' = rubrique 'Rendez vous'.
Code = '0,2-3224,1-0,0.xml' = rubrique 'Société'.
Code = '0,2-3242,1-0,0.xml' = rubrique 'Sports'.
Code = '0,2-651865,1-0,0.xml' = rubrique 'Technologies'.
Code = '0,2-3546,1-0,0.xml' = rubrique 'Voyages'.

Retour en haut de la page