Boîte à outils


Etiquetage morpho-syntaxique


Cette procédure consiste à associer une étiquette morpho-syntaxique à chaque mot. Dans un premier temps les textes doivent être segmentés en mots et en phrases. Ensuite, on effectue la lemmatisation, c'est-à-dire l'association d'un "lemme" à chacun de ces mots.


Cette partie est dédiée à l'etiquetage morpho-syntaxique des mots qui s'effectue sur les fichiers texte obtenus précédemment. Pour ce faire, on utilise deux méthodes différentes:


Treetagger


On reprend le script initial de BAO1 (méthode à la loyale) et on rajoute le code pour le traitement en Treetagger:


Téléchargement du script ici.

Téléchargement des résultats ici.


Cordial


Le script utilisé en BAO1 est rélancé une deuxième fois, après avoir rajouté les parties concernant le traitement en Treetagger. Les sorties résultantes, en format texte brut, serviront comme input pour le traitement en Cordial.


Une étape de prétraitement est nécessaire, car l'encodage des fichiers texte est utf8 (nous l'avons transformé dans la partie BAO1). On rechange alors l'encodage de chaque fichier en iso-8859-1, car c'est le seul encodage accepté par Cordial. Une fois les fichiers texte recodés, on passe à l'etiquetage morpho-syntaxique.

L'etiquetage se fait simplement, d'après les paramètres que nous avons cochés selon notre intérêt, comme on peut le voir sur l'image suivante:


Tag

Les fichiers obtenus sont au format cordial (cnr).


Téléchargement des résultats ici.