Projet Boîtes à outils
Présentation du projet
Le projet "Boîte à outils" a été réalisé dans le cadre du cours "Projet Encadré 2", dispensé par M. Serge Fleury et M. Jean-Michel Daube, lors du second semestre du master 1 pluriTAL (année scolaire 2020/2021). L'objectif du projet est de mettre en oeuvre une chaîne de traitement textuel semi-automatique en quatre étapes sur un corpus de fils RSS du journal Le Monde. Ce site, entièrement réalisé pour ce projet, présente nos cheminements, codes, et résultats obtenus.
Un fil RSS, c'est quoi ?
S'abonner à un fil RSS permet d'être tenu informé des nouveaux contenus d'un site Internet, sans avoir à le consulter. Plus précisément, un fil ou flux RSS (Really Simple Syndication) est un flux de contenus provenant d'un site Internet : les dernières nouveautés ajoutées au site web sont détectées et mises à jour par le biais d'un fichier XML. L'application RSS s'appuie sur un langage XML défini par son propre vocabulaire (liste de balises) et sa propre grammaire (structuration des balises).
Description du corpus de travail
Notre corpus de travail rassemble l'ensemble des fils RSS du site internet du journal Le Monde recueillis tous les jours de l'année 2020 à 19 heures. Ce corpus est organisé dans un répertoire sous la forme suivante : année/mois/jour/heure/fils RSS.

Pour chaque journée, 16 fils RSS sont récupérés. Ils correspondent à 16 rubriques différentes du journal Le Monde. On retrouve à chaque fois deux fichiers par rubrique : le fil RSS au format XML, ainsi que son équivalent au format TXT. Le nom du fichier contient l'identifiant de la rubrique du fil RSS extrait.
RUBRIQUE | IDENTIFIANT |
---|---|
Une | 3208 |
International | 3210 |
Europe | 3214 |
Société | 3224 |
Idées | 3232 |
Economie | 3234 |
Actualité médias | 3236 |
Sport | 3242 |
Planète | 3244 |
Culture | 3246 |
Livres | 3260 |
Cinéma | 3476 |
Voyage | 3546 |
Technologies | 651865 |
Politique | 823353 |
Sciences | env_sciences |
Pour ce projet, nous travaillerons à partir de la version structurée (XML). Grâce aux balises, nous pourrons extraire les données qui nous intéressent, à savoir les titres et les descriptions des articles. Voici un exemple d'un fil RSS de la rubrique "Planète" (3244). Chaque fil est strucuré de cette façon. On repère facilement les balises <title> et <description> :

Un projet en trois étapes
Nous avons élaboré trois "boîtes à outils", chacune correspond à une étape de notre chaîne de traitement :
- Boîte à outils 1 : extraction du contenu textuel
- Boîte à outils 2 : étiquetage morpho-syntaxique
- Boîte à outils 3 :
Dans les travaux qui suivent, nous nous intéresserons aux quatre rubriques suivantes :
- Europe (3214)
- Planète (3244)
- Culture (3246)
- Cinéma (3476)