Laurie Acensio-Kun Jin

Année 2009-2010

Boîte à outils

Exploitation linguistique du web

BAO 2 : Etiquetage

Cette étape consiste à un étiquetage des données textuelles extraites dans l'arborescence des fils RSS du Monde en utilisant les 2 programmes suivants :

Etiquetage via Treetagger : sortie en un fichier XML

Etiquetage via Cordial : sortie un fichier texte avec 3 colonnes (forme, lemme, catégorie)