PRESENTATION DU TRAVAIL.



L’outil de filtrage qu’il fallait utiliser au cours du devoir était l'utilitaire unix Egrep.

Il s’agissait de réaliser des macro permettant de retrouver plusieurs motifs dans le corpus du Père Duchesne.

Le corpus du Père Duchesne était présenté différemment au départ. En effet chaque mot du corpus était écrit de cette façon (prenons le mot "la" par exemple) 

<w><forme>la</forme><lemme>le</lemme><categorie>DETDFS< /categorie></w>

Il a donc fallut « nettoyer » le texte d’origine pour faciliter les recherches qui suivaient ; le « nettoyage » nous permet de transformer le texte de façon à ce que chaque ligne ressemble à ça :

la_DETDFS

(Voir les différentes macros utilisées sous Emacs pour "nettoyer" le texte.)