Présentation du devoir


Le fichier de travail est un fichier balisé (c'est-à-dire que le texte est accompagné de marqueurs textuels, des balises, qui "encapsulent" le texte) ; il contient aussi des informations morpho-syntaxiques associées à chaque mot du texte. Pour chaque mot, on trouvera une information qui a l'allure suivante :

<w><forme>la</forme><lemme>le</lemme><categorie>DETDFS</categorie></w>

Chaque mot est donc décrit par :


Les balises <w> et </w> contiennent la description du mot. Les balises <forme> et </forme> contiennent la description de la forme graphique du mot.
Les balises <lemme> et </lemme> contiennent la description du lemme.
Les balises <categorie> et </categorie> contiennent la description de catégorie du mot.


Cependant, pour répondre de façon plus précise aux questions, les informations du texte on été réorganisées de la façon suivante :

la_le_DETDFS.