A PROPOS

Présentation et problématique du projet.

TRAITEMENT DE FLUX RSS

Ce projet est réalisé dans le cadre de notre 1ère année de Master TAL. Le but est d'extraire des patrons morphosyntaxiques des titres, des descriptions et des contenus d'articles du journal Le Monde.

Une première partie consiste à récupérer les données à partir des fichiers RSS aspirés sur le site du Monde. Nous écrivons ensuite plusieurs scripts pour montrer les différentes façons possibles de réaliser cette étape. Puis, il faut étiqueter le texte et enfin aller chercher les patrons désirés dans les données étiquetées.

Le suivant aspect de notre projet est d'établir une évaluation des résultats obtenus. Nous souhaitons effectuer une comparaison entre d'une part l'analyse des titres et descriptions des articles, et d'autre part les résultats obtenus lorsque l'on utilise l'ensemble du contenu textuel de l'article.

Cette étude permet d'une certaine façon d'évaluer la quantité de données nécessaires à une analyse sur un corpus de grande taille. On pourrait par exemple faire le parallèle avec les différents sites référençant les articles scientifiques et qui présentent pour chaque article un résumé. Est-il nécessaire, lors d'une analyse de ces articles, de réaliser une étude en profondeur sur l'ensemble du corpus ou est-il tout aussi pertient de mettre en place une analyse axée seulement sur les résumés ?

Pour y répondre, nous allons procéder aux quatre étapes que vous trouverez dans les boîtes à outils.

Boîte à Outils 1

Récupération des données à partir des fichiers RSS.

En savoir plus ...

Boîte à Outils 2

Etiquetage des données extraites des flux RSS.

En savoir plus ...

Boîte à Outils 3

Extraction des patrons morpho-syntaxiques.

En savoir plus ...

Boîte à Outils 4

Représentation graphique des résultats.

En savoir plus ...