PROJET ENCADRÉ


Accueil Mots BAO I BAO II BAO III

BIENVENUE DANS MON SITE

Bienvenu(e) sur mon site!

La réalisation de ce site s’inscrit dans le cadre du semestre 2 du projet encadré. Il consiste à réaliser quatre boîtes à outils (BAO) qui extraient, étiquettent des données textuelles sur l’ensemble des fils RSS 2020 du journal Le Monde.

Information corpus

Le corpus contient 12 sous-dossiers correspondant aux 12 mois de l'année. A l'intérieur de ces sous-dossiers, on y trouve plusieurs sous-dossiers correspondant au nombre de jour de chaque mois. Chaque jour du mois contient des flux RSS de différentes rubriques au format .txt,.xml. Les rubriques ont toutes un identifiant unique

Rubriques

3208 => "une", 3210 => "international", 3214 => "europe", 3224 => "societe", 3232 => "idees", 3234 => "economie", 3236 => "actualite_medias", 3242 => "sport", 3244 => "planete", 3246 => "culture", 3260 => "livres", 3476 => "cinema", 3546 => "voyage", 65186 => "technologies", 8233 => "politique", "env_sciences" => "sciences"

Pour ce Projet nous avons choisi de travailler que sur quelques rubriques