Programme d'extraction en Pur Perl
Extraction de patrons de fichiers Cordial
Ce programme a été conçu par Jean Michel Daube. Il se base sur la structure du fichier Cordial pour extraire les tokens qui correspondent aux étiquettes exprimés par un patron qui est traité comme une liste. Il capture les éléments du fichier Cordial avec une regexp et les stocke dans une liste pour ensuite appliquer une procédure de comparaison de listes :

Pour extraire différents patrons il suffit de modifier les étiquettes dans le premier fichier passé en argument au programme. Il est possible d'exprimer le patron avec une expression régulière. L’étiquetage de Cordial est plus détaillé que celui de Treetagger (par exemple, où Treetagger indique la catégorie, Cordial distingue entre nom commun/propre, féminin/masculin, singulier/pluriel). Pour pouvoir comparer les resultats de Treetager et de Cordial, il faut utiliser des expressions régulières pour exprimer le patron.
Par exemple, pour extraire tous les syntagmes nom suivi d'adjectif, nous avons utilisé l'expression regulière N(C|P).+ ADJ.+ et pour extraire les syntagmes nom suivi de préposition, suivie de nom, nous avons utilisé NC.+ PREP NC.+
Ce script a été appliqué uniquement à la surface des articles parce que la profondeur n'a pas pu être étiqueté par Cordial dans sa totalité. Le résultat est résultat une liste de tous les syntagmes correspondant au patron recherché.