Boîte à Outils 2

Objectif :
– On doit améliorer le programme de BAO 1 afin d'étiqueter les différentes sorties  et d'automatiser  cet étiquetage.

– En sortie, le programme doit construire un fichier structuré en XML contenant une trace du traitement réalisé sur les fichiers.

– Applications :
● utilisation de tree-tagger avec les sorties .xml
● utilisation de Cordial pour les sorties .txt

– Traitement à réaliser :
● à partir de Cygwin B20, pour l'étiquetage avec TreeTagger
● à partir du logiciel Cordial, pour l'étiquetage avec Cordial

TreeTagger

Qu'est-ce que Tree-tagger ?

TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation. Il a été développé par Helmut Schmid dans le cadre du projet «TC » dans le ICLUS (Institute for Computational Linguistics of the University of Stuttgart). TreeTagger permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens. Il est adaptable à d'autres langages si des lexiques et des corpus étiquetés manuellement sont disponibles.

TreeTagger peut également être utilisé comme un « chunker » pour l'Anglais, l'Allemand et le Français (étiquetage des parties du discours, délimitation des groupes syntaxiques, étiquetage des groupes).


Utilisation de tree-tagger dans les différents scripts Perl

Une fois le texte nettoyé, et si un contenu textuel à été extrait, nous pouvons appeler la fonction &etiquetageavectreetagger :


 fonction_treetagger



Il faut définir la fonction &etiquetageavectreetagger, qui permet d'inclure l'application tree-tagger.exe :


tree-tagger



On définit le fichier de sortie pour l'étiquetage tree-tagger :


sortie_treetagger


Télécharger le script perl avec treetagger

Télécharger le script perl XML::RSS avec treetagger


De là on se retrouve avec des fichiers de sorties étiquetées

Télécharger le fichier de sortie Treetager Rub EXAMENS-2009

[haut de page]

Cordial

Qu'est-ce que Cordial ?

Cordial est un outil d’étiquetage développé par Synapes.

Il a entre autres une fonctionnalité d’étiquetage. La fonctionnalité d’étiquetage, elle-même, comprend déjà beaucoup de choix de configuration, ce qui demande de l’attention. 

Utilisation de Cordial avec les sorties .txt


Il a d'abord fallu convertir toutes les sorties .txt en iso-latin puisque Cordial ne supporte pas l'utf-8.
Quel ne fut pas notre malheur quand on a dû "rechercher-remplacer" tous les caractères spéciaux qui s'étaient modifiés lors de la conversion !!
Une fois ce dur labeur terminé, nous avons enfin pu nous consacrer à l'étiquetage Cordial ...


Une fois dans Cordial, il faut ouvrir le fichier .txt et sélectionner Syntaxe dans la barre d'outils puis cliquer sur Etiquetage de texte. S'ensuit le paramétrage de l'étiquetage :


cordial

Télécharger le fichier de sortie converti en iso-latin Rub EXAMENS-2009

Télécharger le fichier de sortie Cordial Rub EXAMENS-2009

[haut de page]