Boîte à outils 2

Etiquetage morphosyntaxique

Objectif

L'objectif de cette boîte à outils est d'étiqueter les contenus textuels extraits dans la première boîte. Cet étiquetage est réalisé à l'aide de TreeTagger et UDPipe. A noter, il est indispensable de rassembler tous les fichiers et programmes utilisés dans un même dossier.

Tree-Tagger

TreeTagger est un outil d'annotation automatique. Afin de réaliser l'objectif, il est nécessaire de transformer les données textuelles au format attendu par TreeTagger: le texte doit être tokénisé. Pour cela, on a utilisé le programme en plus d'un modèle d'étiquetage français . Le résultat obtenu par TreeTagger est au format txt. Pour cela, on a utilisé un deuxième programme pour transformer la sortie au format XML.

UDPipe

UDPipe est un pipeline entraînable pour la tokenisation, le balisage, la lemmatisation et l'analyse des dépendances des fichiers CoNLL-U. De même que pour TreeTagger, on a convertit à l'aide du programme le fichier txt au format XML pour l'utiliser ultérieurement dans la troisième boîte à outils.

Résultats

Les étiquettes choisies sont le type et le lemme. Les résultats obtenus par les deux outils d'étiquetage TreeTagger et UDPipe sont dans le tableau ci-dessous:

RUBRIQUE TreeTagger UDPipe
Sortie TXT Sortie XML Sortie TXT Sortie XML
Cinéma - 3476
Culture - 3246
Voyage - 3246