étiquetage

Les fichiers issus des traitements précédents sont étiquetés, soit par TreeTagger,où soit par Cordial.

1/ Etiquetage par TreeTagger

TreeTagger est un programme qui peut être utilisé en ligne de commande. Il peut donc être appelé dans un  programme PERL avec la commande ‘system’. 
Mais il suppose que le texte soit segmenté en token (un mot par ligne), d’où l’utilisation préalable du
Programme tokenise-fr.pl qui se charge de cette opération. Il semble que le programme tokenise.pl utilisé en cours ait des problèmes de compatibilité avec Windows Vista.
Par ailleurs TreeTragger ne prend en entrée que des fichiers texte. Il convient donc de modifier le programme d’extraction en conséquence.
L’instruction TreeTragger comporte les options d’affichage (lemme ou token), les paramètres (langue), les fichiers d’entrée et de sortie.
Puis les fichiers de sortie sont reconvertis en XML par un programme PEARL (TreeTagger2xml) pour une meilleure exploitation du résultat. On se permettra de légèrement modifier le script de TreeTagger2xml pour l'en-tête et la fin du fichier XML.
Ces traitements sont intégrés dans notre script PERL; chaque texte est étiqueté tour à tour après nettoyage. L'exécution du script aurait été plus rapide en nettoyant d'abord l'ensemble des textes puis en les étiquetant. On a préféré nettoyer et étiqueter texte par texte. Le résultat de l'étiquetage se présentera dans un fichier XML comme tel:

Scripts: 

- A la une
- Société

Résultats:

Les parties textuelles traitées sont concataténées dans un fichier XML pour chaque rubrique:

- A la une
- Société



2/ Etiquetage par Cordial

Cordial est un logiciel d’étiquetage morpho-syntaxique, donnant pour chaque token, son lemme et sa nature morpho-syntaxique.
Pour réaliser cette tâche, il suffit de reprendre les résultats de la BAO 1 (format txt) et de les ouvrir avec Cordial. On paramètre le programme de façon à obtenir un fichier cnr en sortie ressemblant à ceci:




Résultats:

Les parties textuelles traitées sont concataténées dans un fichier texte pour chaque rubrique:

- A la une
- Société