Accueil    |     BAO 1     |     BAO 2     |     BAO 3     |     BAO 4     |     Contacts




BIENVENUE SUR NOTRE SITE


Présentation

Ce projet, intitulé Boîtes à outils, a été effectué lors du second semestre dans le cours Programmation et projet encadré. Ce site met en évidence les résultats obtenus après les différentes étapes de traitement semi-automatique de textes.


Objectif

Ce projet consiste à récupérer et exploiter les fils RSS du journal Le Monde
Qu'est-ce qu'un fil RSS?

Le mot RSS désigne avant tout une famille de formats XML. Le format RSS (Really Simple Syndication) désigne de manière très synthétique le contenu d'un site web. Ce fichier au format XML, autrement appelé: flux RSS ou fil RSS, voire canal RSS facilite son exploitation. Les flux RSS permettent à un site web de partager les actualités. La nature des flux RSS peut être relativement variée: listes de tâches dans un projet, prix, alertes de toutes natures, nouveaux emplois proposés, nouveaux articles/chroniques, etc.



Etapes du projet

La première étape est celle de la boite à outil numéro 1 . Il s'agit de récupérer les fichiers xml de 2 rubriques dans les fils RSS fournis, donc des rubriques du journal Le Monde, sur l'année 2008 , d'en extraire le texte exploitable et de le sortir dans un nouveau document xml / txt .

La seconde consiste en l'étiquetage des données crées . C'est à dire qu'on va chercher à étiqueter morphosyntaxiquement le document créé grâce à la boite à outil 1 .

De ces données étiquetées, on va en extraire une série de patrons . Des patrons NOM ADJ et NOM PREP NOM . C'est la troisième étape .

La dernière partie de notre travail est un travail sur les graphes permettant de mettre en valeur les résultats obtenus dans les étapes précédentes .





Retourner en haut de la page

Copyright © 2009 Cécile Darmé & Elodie Nijean