Boîte à outils 2 : Etiquetage

L'étiquetage morpho-syntaxique consiste à associer une étiquette morpho-syntaxique à chaque mot. Il repose sur la segmentation en mots et en phrases effectués préalablement.

Produire un étiquetage des données textuelles extraites dans l'arborescence des fils RSS du Monde via deux programmes (Treetagger & Cordial ).

Objectif :

La Boîte à outils 2 concerne l' étiquetage morpho-syntaxique des contenus textuels. On a deux moyens pour étiqueter, l'un avec Cordial et l'autre avec Treetagger.

Etiquetage via Cordial de la concaténation complète des textes extraits (**) lors du parcours de l'arborescence : en sortie un fichier texte avec 3 colonnes (forme, lemme, catégorie).

Etiquetage via Treetagger modifier le script (vu à la BàO1) de parcours de l'arborescence des fils afin d'étiqueter les contenus textuels des fils RSS juste après leur extraction : en sortie, un fichier XML.

Traitement à réaliser :

Etiqueter les contenus textuels des balises DESCRIPTION et TITLE ( avec le programme de filtrage construit via la boîte à outils 1 )

Ressources :

-Le programme:

Boîte à outils 1

-L'arborescence des fils.

-Un répertoire contenant le programme Treetagger pour Windows:

Treetagger-win32.zip

Réalisation :

Méthode 1 : Cordial

Cordial : est un logiciel de correction grammaticale manuel et payant.

-Il prend en entrée un fichier au format (TXT) et la sortie sera un fichier au format (CNR).

-On ouvre avec ce logiciel la sortie(TXT) obtenue via la boîte à outils 1.

-On modifie les paramétres pour étiqueter le fichier TXT selon l'interface graphique suivant:

-On obtient comme résultat : étiquetage-cordial


Méthode 2 : Treetagger

Treetagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation. Il a été développé par Helmut Schmid dans le cadre du projet « TC » dans le ICLUS (Institute for Computational Linguistics of the University of Stuttgart). TreeTagger permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens. Il est adaptable à d'autres langages si des lexiques et des corpus étiquetés manuellement sont disponibles.


Utilisation :

La commande d’étiquetage CLASSIQUE avec TreeTagger est la suivante :

tree-tagger [options] -parametres -textein -texteout

  • -Le premier argument est le fichier paramètre (french.par dans le répertoire lib par exemple);
  • -Le deuxième argument est le texte à étiqueter (avec un mot par ligne);
  • -Le troisième argument est le nom du fichier de sortie.

Comment on lance le programme?

On prend le programme de la baîte à outils 1 et on le modifie pour qu'il éxecute également les objectifs de la boîte à outils 2.

-On ajoute la ligne de commande :

perl ./cmd/tokenise-fr.pl rubriques.txt | ./bin/tree-tagger.exe ./lib/french.par -lemma -token -sgml > resultat-etiquetage-rubriques-foutoun.txt

-french.par :fichier contenant le lexique et les paramètres spécifiques à la langue française;

-lema :pour imprimer les lemes;

-token :pour découper le texte en mots;

-sgml :Standard Generalized Markup Language.

Les ressources sont la sortie TXT de la boîte à outil 1 et le premier script aprés la modification cliquer ICI. Pour le voir sur une sortie HTML cliquer ICI

On obtient comme résultat une sortie-étiquetée.TXT.

-Pour le Tokenise, on ajoute cette ligne de commande :

perl ./cmd/tokenise-fr.pl rubriques.txt > resultat-etiquetage-rubriques-foutoun-tokenize.txt

Les ressources sont un programme tokenise.pl qui segmente le texte en tokens

(ce programme sera utilisé avec treetagger) et en entrée, utiliser la même sortie TXT

ci-dessus.

On obtient le résultat suivant : sortie-étiquetée-tokenise.TXT.

-Raffinement: un script perl transforme la sortie de treetagger en format XML.

Usage:

perl treetagger2xml sortietreetagger.txt => création d'un fichier en sortie qui a pour nom: sortietreetagger.txt.xml

On ajoute la ligne de commande suivante:

perl treetagger2xml.pl resultat-etiquetage-rubriques-foutoun.txt > resultat-etiquetage-rubriques-foutoun.txt.xml

Le programme treetagger2xml.pl et la sortie TXT obtenu via la boîte à outil 1

donnent le résultat suivant : une sortie XML



FOUTOUN CHAAR © 2009.Tout droit réservés.