Bao 2 Bao 3 Bao 4 Conclusion Contact Remerciements

Boîte à Outils

Introduction:

Ce projet a été réalisé dans le cadre du cours de Projet Encadré 2ème semestre du cursus Master 1 Plurital

Le but du projet: la mise en oeuvre d'une chaine de traitement textuel semi-automatique, depuis la récuperation des données jusqu'à leur presentation.
Plus precisement, il consiste à extraire d'un corpus de fils RSS du journal "Le Monde" une rubrique pour aboutir à des patrons syntaxiques sous formes de graphes de mots. Nous avons choisi la rubrique Internationale

Le plan du travail realise :
  1. BAO1 : Perl (filtrage, nettoyage des fils RSS)
  2. BAO2 : Etiquetage (Treetagger, Cordial)
  3. BAO3 : Extraction terminologique
  4. BAO4 : Transformation des textes aux Graphes (les mots qui s'attirent dans les fils)

Le format « RSS » (traduisez « Really Simple Syndication ») permet de decrire de facon synthetique le contenu d'un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de contenir constamment les dernières informations à publier.

Basiquement, un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en detail l'information. Cela permet à un site web de diffuser largement ses actualités tout en récuperant un grand nombre de visiteurs grace au lien hypertexte permettant au lecteur de lire la suite de l'actualite en ligne. (voir http://www.commentcamarche.net/contents/www/rss.php3)

La structure d'un fil RSS :



©2009-2010 Ekaterina Ostapenko - Irina Poltavchenko