Etiquetage morpho-syntaxique


Notre boite à outil numéro deux consiste en l’étiquetage morpho-syntaxique des données de notre corpus. En effet notre corpus maintenant nettoyé va être enrichi de métadonnées décrivant leur catégorie grammaticale pour chaque mot utilisé. Notre but est de pouvoir présenter chaque mot sous la forme :

<token=“toto” cat_gr=“nom” lemme=“toto”> toto </token>

TREE-TAGGER:

Pour cela nous allons utiliser tree-tagger. Ce logiciel va nous permettre de réaliser l’étiquetage. Pour fonctionner correctement, il a besoin d’un fichier de paramètres (french-utf8.par) et d’un fichier dans lequel chaque mot se trouve sur une ligne (on va donc tokeniser notre corpus). Exécuté sur le corpus tokenisé avec les option -token -lemma, tree-tagger renvoi le mot, sa catégorie grammaticale (sous forme d’abréviation) et son lemme, chacun séparé par une tabulation.
C’est à partir de cette liste que nous allons tenter d’ajouter des informations dans notre fichier XML. Pour y parvenir, deux scripts que nous pouvons lancer depuis le script perl (grâce à la commande "system") nous ont été fournis.

CORDIAL:

Nous pouvons également réaliser l'étiquetage à l'aide du logiciel Cordial Analyseur. Ce logiciel pocède en effet une fonctionnalité permetant d'étiqueter un fichier texte automatiquement.

Résultats de la surface étiquetée par Cordial :


SCRIPTS:

Script pour l'étiquetage de la surface avec Tree-Tagger.
Script pour l'étiquetage de la profondeur avec Tree-Tagger.

SURFACE ETIQUETEES PAR TREE-TAGGER :

3208 : Résultat de l'étiquetage
3210 : Résultat de l'étiquetage
3234 : Résultat de l'étiquetage
3476 : Résultat de l'étiquetage

PROFONDEUR ETIQUETEES PAR TREE-TAGGER :

3234 : Résultat de l'étiquetage
3476 : Résultat de l'étiquetage


Renise Pierre et Justine Mouveaux - M1 PluriTAL - 2015-2016