Ce site a été réalisé dans le cadre du Master TAL (P3/INALCO/PX). Il illustre les traitements automatiques réalisés sur des fils RSS en programmation Perl. Notre corpus est donc constitué de tous les fils RSS du journal le Monde de l'année 2015 (2 go de données organisées sous une arborescence de fichiers)
Notre but in fine était d'extraire les patrons morphosyntaxiques sur ces données.

Nous avons travaillé sur les rubriques suivante :
- 3208 : fichier à la une
- 3210 : international
- 3214 : europe

Programme pour lire dans l'arborescence les deux fichiers ensemble tous les jours et extraire le texte de chacun
- fichier RSS : surface du monde
- fichier txt : profondeur du monde



Meryl Bothua - M1 PluriTAL - 2015-2016