Secteur TAL Informatique,
Université Sorbonne nouvelle, Paris 3

19 rue des Bernardins, 75005 Paris
Travail du 22 février 2006 :
Extraction terminologique (suite)

 

Liens

Lien direct : http://www.tal.univ-paris3.fr/cours/projet_22_02_06.html

Retour page du cours.

Travail à faire

Ce travail est explicité sur le blog du master

Script de travail

Vous trouverez derrière ce lien (extraction_terme-cordial), un exemple de script, similaire à celui vu la semaine dernière, permettant d'extraire des suites de tokens correspondant à des patrons morpho-syntaxiques contenus dans le fichier de patrons. Ce programme prend en entrée : un fichier issu de Cordial (argument en position 0), un fichier de patrons morphosyntaxiques (argument en position 1). La figure qui suit donne à voir l'activation du programme sur les données de test :

Lien vers le résultat produit : RESULTAT-extraction-cordial.txt

Comme annoncé dans le travail à faire, vous devez commencer par tester ce programme en modifiant le fichier des patrons suivant les besoins, puis vous devrez appliquer ce programme sur les contenus de l’arborescence complète des fils RSS vue dans les BàO série 1 et 2 et produire en sortie un fichier contenant le résultat du filtrage terminologique sur l’arborescence complète des fils RSS (le contenu des balises DESCRIPTION), l’étiquetage étant réalisé préalablement avec Cordial (cf BàO série 2).