Les corpus ont été récolté à partir du site web du journal Le Monde via des fils RSS. Le processus à commencé en 2006.
Les RSS (abréviation de Really Simple Syndication) sont des liens en provenance des sites web. Ils contient un fils RSS avec le titre de l'information, une courte description et un lien vers une page contenant l'intégralité de l'information.
Les corpus récoltés sont en format XML compatible avec l'outil d'analyse Lexico3. A l'aide d'un programme perl : parcours-lesfilsdumonde-et-makerubrique.pl, nous avons construit des corpus regroupant tous les fils du même rubrique puis la concetenation des rubriques par année sur le console cygwin.
Pour traiter les contenus des différents rubriques, le travail a été réparti entre plusieurs étudiants . Ici on traite les états associés à la profondeur du monde (le contenu textuel des leins RSS) des corpus de la rubrique Media et France-société 2007-2008.