Boite à outils

Présentation

Une boite à outils assez élégante Une boite à outils assez élégante Une boite à outils incroyablement élégante Une boite à outils vraiment élégante Une boite à outils vraiment élégante

L'objectif du projet Boite à outils était la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation.

Pour réaliser cet objectif, il s'agissait de créer trois boîtes à outils effectuant des tâches sur des données textuelles récoltées à partir d'une arborescence de fils RSS (le Monde)

Les trois boites à outils contiennent donc des script Perl, XML, XSLT, XQUERY permettant de réaliser cet objectif.

Dans la boite à outils 1 (BAO1), vous trouverez les scripts permettant l'extraction du texte contenu dans l'arborescence de fils RSS. La Boîte à outils 2, elle, consiste à étiqueter automatiquement le texte. Pour se faire nous feront usage de Treetagger et de Udpipe. Et enfin la boîte à outils 3 consiste à extraire des patrons morphosyntaxiques et relations de dépendances depuis des fichiers XML comportant le résultat de l'extraction et étiquetage du texte fait dans les BAO1 et 2.