Laurie Acensio-Kun Jin

Année 2009-2010

Boîte à outils

Exploitation linguistique du web

BAO 1 : Filtrage et nettoyage du corpus

Cette étape consiste à parcourir le corpus "fils rss du journal Le Monde 2008" pour extraire, filtrer et nettoyer les contenus textuels des balises de la rubrique.

Les rubriques RSS proposées par le site LeMonde.fr traitent des thèmes aussi variés que l'acualité, la société, le cinéma...

Nous avons choisi la rubrique "Politique".