Présentation


Au cours du deuxième semestre du Master 1 TAL, dans le cadre du cours "Programmation et Projet Encadré",
nous avons développé d'une chaîne de traitement des actualités du journal "Le Monde" extraites provenant des
flux RSS:
Ce projet s'est fait en quatre étapes principales :
- Boîte à outils n°1- Extraction du texte : parcours de l'arborescence du dossier des flux 2021 capitalisés + extraction du contenu textuel (titre & description) de tous les fils d'actualité pour une rubrique donnée
- Boîte à outils n°2- Etiquetage du texte : annotations automatiques morpho-syntaxiques & en dépendances, avec Treetagger et UDpipe
- Boîte à outils n°3- Extraction de patrons : extraire les termes correspondants à un patron morphosyntaxique (ex : NOM ADJ) sur les données étiquetées et d'extraire les relations de dépendances
- Boîte à outils n°4- Des textes aux graphes : visualisation du contenu textuel