Projet BàO

Etiquetage morpho-syntaxique

Notre boite à outil numéro deux consiste en l’étiquetage morpho-syntaxique des données de notre corpus. En effet notre corpus maintenant nettoyé va être enrichi de métadonnées décrivant leur catégorie grammaticale pour chaque mot utilisé. Notre but est de pouvoir présenter chaque mot sous la forme :

<token=“toto” cat_gr=“nom” lemme=“toto”> toto </token>

TREE-TAGGER:

Pour cela nous allons utiliser tree-tagger. Ce logiciel va nous permettre de réaliser l’étiquetage. Pour fonctionner correctement, il a besoin d’un fichier de paramètres (french-utf8.par) et d’un fichier dans lequel chaque mot se trouve sur une ligne (on va donc tokeniser notre corpus). Exécuté sur le corpus tokenisé avec les option -token -lemma, tree-tagger renvoi le mot, sa catégorie grammaticale (sous forme d’abréviation) et son lemme, chacun séparé par une tabulation.
C’est à partir de cette liste que nous allons tenter d’ajouter des informations dans notre fichier XML. Pour y parvenir, deux scripts que nous pouvons lancer depuis le script perl (grâce à la commande "system") nous ont été fournis.

CORDIAL:

Nous pouvons également réaliser l'étiquetage à l'aide du logiciel Cordial Analyseur. Ce logiciel pocède en effet une fonctionnalité permetant d'étiqueter un fichier texte automatiquement.

Résultats de la surface étiquetée par Cordial :