PROJET ENCADRÉ


Accueil Mots BAO I BAO II BAO III

BAO N° II

Dans la poursuite de la boîte à outil n° 1, le BAO n°2 consiste à avoir un étiquetage morphosyntaxique avec les modèles de Treetagger et de Udpipe sur les rubriques.

Comme Treetagger dans ses fonctionnalités, Udpipe prépare les données textuelles en respectant les étapes de Tokenisation, de Marquage des parties du discours, de Lemmatisation et d’Analyse de dépendance.

Le script dédié à ce traitement d’étiquetage (Treetagger et Udpipe) prend en entrée le texte brut .TXT pour le Udpipe et .XML pour Treetagger. Et pour se faire la fonction system de perl assure cette tâche.

Il est important de signaler aussi que la fonction étiquetage prend en paramètre un titre et une description nettoyés. La fonction commence par écrire le contenu de la variable dans un fichier temporaire après les avoir tokenisés grâce au script tokenise-utf8.pl pour le texte brut et treetagger2xml-utf8.pl pour le format XML.


SCRIPT 3210.TXT (International) 3210.XML (International) Treetagger.XML Udpipe.TXT Script_token