accueil | bào1 | bào2 | bào3 | bào4 | bào + le_trameur

Boîte à outils n°2

Objectif : étiqueter les contenus textuels des balises "description"

Ressources

Etiquetage avec Cordial

Dans un premier temps, bao2-cordial.pl se charge de préparer notre corpus pour un étiquetage manuel. Les fichiers obtenus sont ensuite traités avec Cordial. Enfin, il reste à convertir le résultat de l'étiquetage au format XML avec cordial2xml.pl, une version modifiée de treetagger2xml adaptée au format des sorties Cordial.

fichiers : bao2-cordial.pl, cordial2xml.pl

Etiquetage avec TreeTagger

L'étiquetage se fait en trois étapes :

  1. découper notre corpus en mots graphiques avec tokenise-fr.pl
  2. étiqueter chacun des mots avec TreeTagger
  3. convertir le résultat de l'étiquetage au format XML avec treetagger2xml.pl
Fichiers : bao2-treetagger.pl

Résultat

Le résultat de l'étiquetage est donné à voir à l'aide d'une transformation XSL.
Feuilles de styles : style_cordial.xsl, style_tt.xsl

CordialTreeTagger
cinema.xmlcinema.xml
culture.xmlculture.xml
economie.xmleconomie.xml
environnement-sciences.xmlenvironnement-sciences.xml
examens_2008.xmlexamens_2008.xml
international.xmlinternational.xml
livres.xmllivres.xml
medias.xmlmedias.xml
municipales-cantonales_2008.xmlmunicipales-cantonales_2008.xml
opinions.xmlopinions.xml
politique.xmlpolitique.xml
rendez-vous.xmlrendez-vous.xml
societe.xmlsociete.xml
sports.xmlsports.xml
technologies.xmltechnologies.xml
une.xmlune.xml
voyages.xmlvoyages.xml

Liens

Cordial : http://www.synapse-fr.com/
TreeTagger : http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

retour en haut

©2008 Pierre Marchal (INaLCO)