mail

Sommaire



Le but de ces boites a outils est de nous faire appréhender la puissance de perl et de nous donner des outils qui vont nous servir a faire de l'analyse textuelle poussée.

D'abord, avec la boite a outils n°1, il a été mis a notre disposition un script perl permettant de parcourir une arborescence de fichiers. Il s'agit du script parcours-arborescence-fichiers.pl. On nous également fourni une arborescence a parcourir qui porte le doux nom d'arbo-fils. (en fait il s'agit d'une petite partie du corpus du monde, au format xml, ainsi qu'un petit logiciel d'étiquetage nommé treetagger ... Voila pour les bases.

Mais qu'est-ce qu'on en fait?

Alors voilà, il va falloir trier tout ca et puis l'étiqueter, aussi. Je ne cache pas qu'il va falloir jongler avec les formats de fichiers, avec les étiqueteurs et que tout cela ne va pas être simple.

Ce travail se divise en boites a outils et notre outil de travail principal, au moins au début, sera PERL.
Pour plus de précisions allez voir le site du CPAN. Sinon la doc de Perl en français se trouve ici.
Il y a même un plan ! (Je ne suis pas sur de la pertinence de cette information...)

Mais comment on fait ?

avec treetagger

Partie 1

avec cordial

Partie 2 

extraction terminologique

Partie 3

Des textes aux graphes

Partie 4


liens



Document made with Nvu