Étiquettage

-------------------------------------------------------------

Objectifs

      Pour la deuxième boite à outils, nous voulons affiner les résultats obtenus par la première boite à outils. En ce qui concerne le parcours de l’arborescence, nous allons réutiliser le premier script et le compléter par des opérations de désambiguïsation et d’étiquetage morpho-syntaxique à l’aide de deux outils à savoir Udpipe et TreeTagger. Nous allons par ce biais produire deux sorties « postaguées » des titres et descriptions de chaque article. Ces opérations seront faites dans deux procédures, l’une pour Udpipe et l’autre pour TreeTagger. Pour y parvenir, nous allons créer une sous-procédure qui va tokeniser le texte et ranger les titres et descriptions tokénisées dans des variables distinctes pour permettre la bonne formation d’une sortie de l’étiquetage au format XML ( donc ranger les couples Token/Tag entres balises ‹titre› et ‹description› ).

Les grandes étapes

      Comme nous l’avons indiqué en introduction, nous allons dans un premier temps procéder à la tokenisation des données en entrée pour permettre l’étiquetage TreeTagger.

-- TreeTagger

Sous Procédure ‘tokenisationtreetager’:

      Cette procédure consiste à répertorier en liste les titres et descriptions de chaque rubrique dans des fichiers distincts afin de renvoyer les titres et les descriptions tokénisées. On le fait via une commande bash qui fait appel à un programme perl de tokénisation ( utf-8-tokenize.perl ) Il suffit enfin de lancer notre fonction ‘parcoursarborescencefichiers’ ( décrite plus bas ) sur le dossier désigné par le premier argument du programme de façon récursive.

2. Procédure ‘etiquetreetager’ :

      Ici la procédure consiste simplement à lancer le programme d’etiquetage TreeTagger par le biais d’une commande bash qui nous renvoie un fichier du contenu titres et descriptions étiquetés au format XML.

-- UDPipe

Sous Procédure ‘etiquetudpipe’:

      Encore une fois dans cette procédure, on fait appel à un programme d’étiquetage par une commande bash qui nous donne en sortie un fichier étiqueté au format UDPipe sous la forme d’un fichier texte.