Explication : Qu'est ce qu'on veut faire ?

Bonjour et bienvenue sur notre site ! :)

Ce site est dédié aux boîtes à outils créées dans le cadre du cours de Projet Encadré 2 du Master 1 TAL dans lequel nous avions pour objectif de construire une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à la présentation des résultats.

Les différentes boites à outils sont :

  • BAO1 : Extraction de données textuelles
  • BAO2 : Étiquetage de données textuelles
  • BAO3 : Extraction de patrons morpho-syntaxiques et de relations de dépendance

Une explication accompagne chaque boîte à outil. Nous travaillons sur le corpus des fils RSS du journal Le Monde de l’année 2020. Ces derniers ont été recueillis tous les jours de l’année 2020 à 19h.

Ci-dessous un schéma de l’arborescence de travail sur laquelle nous avons réalisé ce projet :

Il important de noter que nous avons été contraint de retirer le corpus situé dans le répertoire ProjetEncadre du fait de sa taille trop volumineuse, qui nous empêchait de placer l'archive de notre site sur l'espace de dépôt iCampus. Pour réaliser les différentes commandes, il est donc nécessaire de placer le corpus dans le dossier ProjetEncadre contenu dans le répertoire section et de la nommer 2020. Pour plus de détails vous pouvez vous référer au schéma de notre arborescence de travail ci-dessus.

Nous vous souhaitons une bonne visite sur notre site :)