I.Application d'étiquetage avec Treetagger

Solutions et Scripts:


Après avoir appliqué les traitements nécessaires (vue dans Bao1) pour avoir deux fichiers textes (.txt) qui contiennent les contenus textuels des deux rubriques que j'ai choisi à savoir europe et internationnal.

On s'intéresse maintenant aux opérations qui nous permettent de faire l'étiquetage:


1.segmenter chaque texte en mots avec Tokenise-fr.pl et étiqueter chaque texte segmenter avec Treetagger:

Pour effectuer cette opération j'ai fait une boucle foreach qui permet d'ouvrir nos deux fichier à étiqueter.



Après dans cette boucle, on applique la segmentation avec Tokenise-fr.pl et l'étiquetage avec Treetagger en précisant les chemin vers ces deux programmes.




2.Convertir les 2 résultats de sortie en 2 fichiers XML avec Treetagger2xml.pl:


Treetagger2xml.pl aussi va être appelé à l'intérieur de la boucle foreach, il va nous permettre de convertir en fichiers XML les fichiers de sortie de Treetagger.



Voir le script complet : Bao2_treetagger.pl

II.Application d'étiquetage avec Cordial

Solutions et Scripts:

L'étiquetage avec Cordial se fait manuellement c'est à dire on ne fait pas appel à ce programme au sein d'un script.

L'entrée de ce programme est un fichier texte (.txt) qui contient les contenus textuels des balises title et description.

J'ai fait un programme qui me permet d'avoir deux fichiers texte (.txt) comme sortie pour mes deux rubriques afin de faire l'étiquetage manuellement.


Voir le Script permet d'avoir les fichiers d'entrées pour Cordial: : Bao2_cordial.pl


Après on effectue l'étiquetage avec Cordial:



Cliquez pour agrandir l'image

  BAO 1

Télécharger le script + Les sorties de BAO1

  BAO 2

Télécharger le script + Les sorties de BAO2

  BAO 3

Télécharger le script + Les sorties de BAO3