La boîte à étiquetage - partie 2

En reprenant le programme précédant de filtrage et en incluant un programme donné par le professeur qui permet la construction en sortie d'un fichier xml, nous devions élaborer un programme qui permet l'étiquetage des contenus textuels extraits dans les balises DESCRIPTION (cf. partie 1) avec les logiciels TreeTagger (qui est lancé en ligne de commande) et Cordial, et qui crée en sortie un fichier structuré (XML) contenant la trace du traitement réalisé sur les fichiers. Le programme de départ permet de lire une arborescence de fichiers.

  1. TreeTagger

    Pour le logiciel de TreeTagger, il convient de noter qu'il ne peut analyser plus de 200 mots et que ces mots doivent être chacun sur une ligne différente. Chaque contenu de la balise fait moins de 200 mots, cependant il existe plusieurs balises descriptions dans un même fichier, il faut donc analyser le contenu de chacune des balises descriptions (et non par exemple l'ensemble des balises descriptions d'un même fichier) avec le logiciel TreeTagger.

    J'ai détaillé le programme perl dans sa structure interne. Voici le résultat brut qu'on obtient et celui avec l'utilisation de la feuille de style donnée (avec seulement le changement des noms des balises).


  2. Cordial
    Le fichier de départ était celui-ci qui contient les mots et les ponctuations chacun sur une ligne. Il a été obtenu par le programme perl précédent. En effet, lors de l'exécution du programme perl précédant, un fichier de Sortie avait été créé contenant un mot ou une ponctuation par ligne.
    Avant de lancer Cordial, j'ai modifié les accents qui avaient été mal codés afin d'éviter à Cordial de les étiqueter comme des mots indépendants. Par exemple, la lettre accentuée "è" était codée avec les deux lettres "è". L'utilisation de la fonction rechercher/remplacer sous perl a permis de les modifiées. Cette modification s'est faite lors du programme perl qui permettait l'étiquetage avec le logiciel TreeTagger. J'aurais pu le faire lors de la première partie mais ce n'est qu'à la fin des exercices que j'ai constaté que ces codages posaient problèmes. Au lieu de créer de nouveau un programme perl qui aurait changé ces codages, j'ai préféré l'intégrer dans le programme perl précédant donc de TreeTagger même si pour ce dernier, cela ne pose aucun problème.

    Avec le logiciel Cordial, on ouvre le fichier texte où les mots sont chacun sur une ligne. Puis on étiquette en sélectionnant Lemmes et sous Type grammatical, on sélectionne Abrégé en majuscules (sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs). On obtient en sortie ce fichier.
    Afin de le sortir sous un fichier xml, on lui applique ce programme perl (cliquez dessus pour le télécharger) et on obtient ce fichier xml.
    Le programme est presque le même que lors de TreeTagger.