Boîtes à outils pour le traitement des fils de presse

Egle Ramdani  (Master TAL, Paris 3)

PRÉSENTATION AVEC LES GRAPHES


Les liaisons des patrons extraits dans la boîte à outils 3 vont être présentés sur une graphe. Pour visualiser les résultat de l'extraction sur une graphe, on passe par 2 étapes:
  1. D'abord, on transforme le fichier des patrons extraits au format graphml à l'aide d'un programme perl (adapté pour les syntagmes prépositionnels).
  2. Pour rendre le fichier interprétable par le logiciel Pajek (qui a son propre format) on lui applique une feuille de style xslt.

Graphe des termes Tree-Tagger

Ici, j'ai repris le programme complété au fur et à mesure à travers les boîtes à outils pour y intégrer cette partie. Le nouveau programme (qui produit aussi les résultats des boîtes à outils 2 et 3) nous donne un fichier au format graphml et un fichier au format Pajek. Ce dernier a servi à Pajek pour créer une graphe présentant les liaisons entre les noms ayant un complément.

Graphe des termes Cordial

Pour les raisons expliquées dans le boîte à outils 3, le processus n'est pas totalement automatique - il y a une rupture au moment de l'étiquetage. Ici, j'ai repris le résultat de la boîte à outils 3 pour y appliquer un programme shell qui réunit différents étapes nécessaires pour la production du fichier utilisable par le logiciel Pajek. En résultat on a un fichier au format graphml, un fichier au format Pajek et une graphe.