Présentation


Bienvenue ! Ce site est le fruit du travail réalisé tout au long du Semestre 2 dans le cadre du cours Projet Encadré. Le but de ce projet est de mettre en place un traitement semi-automatique de contenu textuel, à savoir les titres et résumés des articles du journal Le Monde de l'année 2021. Il y a donc une visée double: faire une analyse linguistique à partir des article et mettre en place les outils informatiques permettant de faire cette analyse. Les étapes du projet sont structurées en Boîtes à Outils (BAO), qui ont chacune un objectif précis.

Etapes du projet

  1. Boîte à outils 1: Extraire le contenu textuel
  2. Boîte à outils 2: Etiqueter automatiquement le contenu textuel
  3. Boîte à outils 3: Extraire des patrons et relations de dépendance à partir des textes étiquetés
  4. Boîte à outils 4: Visualiser les résultats sous forme de graphes

Corpus


Pour mener à bien ce projet, nous disposons d'un corpus fourni par les professeurs, Serge Fleury et Pierre Magistry. Il s'agit des fils RSS des articles publiés sur le site du journal Le Monde. Ils ont été récupérés tous les jours à 19h, et ce tout au long de l'année 2021. Notre corpus de travail se compose de dossiers séparés par mois, par jour et par rubrique. L'arborescence ressemble à ceci:


Chaque étudiant doit se concentrer sur quelques rubriques (voir la BAO1 pour le détail des rubriques). J'ai choisi de travailler sur les rubriques International (code 3210), Idées (3232) et Economie (3234). Cela permet d'étudier et de comparer les phénomènes linguistiques propres à chaque sujet.