BAO 1 : Perl
Pour le projet BaO 2009-2010, le corpus de travail est constitué de l'ensemble des fils RSS disponibles sur le site du journal Le Monde recueillis tous les jours de l'annee 2009 à 19h. On a commencé par tester la chaîne de traitement sur un échantillon (15 jours seulement de l'année 2008) correspondant à celui fourni dans les ressources disponibles sur le site du cours : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm#projet22.
Dans un Fils RSS nous nous interessons aux balises <title> et <description>
Fichiers de 2008 :
Et puis on a traité le corpus des Fils RSS de l'annee 2009 qui nous etait fourni par M. Fleury.
Le corpus a la structure suivante:
2009: jan: 01: 19-00: 0,2-3210,1-0,0.txt
0,2-3214,1-0,0.xml
02: 19-00:
03: 19-00:
04: 19-00:
...
30: 19-00:
fev:
mar:
...
dec:
Par exemple :

Fichiers de 2009 :
|