Boîte à outils 2 | Retour |
Sommaire:
|
---|
a)Usage : perl etiquette-avec-tree-tagger_mod.pl nom du fichier xml
b) Entrée : un fichier xml contenant les textes à traiter.
c) Sortie : un document XML contenant les noms des fichiers sources et le résultat de l’étiquetage de leurs contenus .
(la sortie pour l’exemple fourni).
d) Source :le programme commenté est disponible ici .
Le code source au format texte est disponible ici.
I.1 Treetagger :
Treetagger est un étiqueteur basé sur les règles probabilistes, il a été conçu à
l’université de stuttgart par Achim Stein , son utilisation pour l’étiquetage des corpus
donne de très bons résultats, il permet de traiter une multitude de langues (dont
le français ), en plus il est disponible gratuitement ( télécharger ).
Le programme qui permet de transformer le résultat de l’étiquetage au format XML
a été légèrement modifié pour obtenir les noms des balises souhaitées.
( consulter le programme)
Les textes des balises « contenu »; dans le fichier XML obtenu a l’aide du programme
parcours-arborescence-fichiers, sont soumis à un ensemble de traitements pour avoir
En sortie un seul document XML contenant tous les résultats de l’étiquetage.
2- Etiquetage avec treetagger :
Le fichier résultat au format XML
Le fichier résultat au format HTML.
Le fichier résultat au format XML
Le fichier résultat au format HTML.