Boîte à  Outils 2 : Etiquetage de textes

 

Objectifs

A partir du programme que l'on a réalisé dans la BaO1, on veut étiqueter tous les fichiers créés. Pour cela on va :

(1) Intégrer le traitement d'étiquetage de TreeTagger.

(2) l'adapter pour l'appliquer à  Cordial

 

 

Etiquetage avec TreeTagger

TreeTagger peut àªtre utilisé en ligne de commande. Il suffit de l'appeler dans notre premier programme PERL sous la commande system (qui nous renvoie temporairement au système d'exploitation).

Cependant, plusieurs points sont à  signaler :

- le texte d'entrée ne doit contenir qu'un mot par ligne. Pour cela on commencera par lancer le programme tokenize.pl fourni par nos professeurs

- Si on reprend notre ancien script, on remarque vite que l'on peut lancer treetagger à  plusieurs endroits. En effet, on pourrait étiqueter chaque ligne récupérée, ou une fois qu'un fichier a été lu, ou une fois que tous les fichiers ont été lus et que les sorties par rubrique sont créées et terminées. Nous testerons la dernière possibilité avec Cordial. La première solution ralentit énormément l'exécution du programme, nous avons donc opté pour la deuxième. Ainsi, à  chaque fois qu'on a récupéré toutes les balises description d'un fichier, on lancera treetagger.

- De plus, le nom de l'étiqueteur est suivi par plusieurs paramètres :

- Enfin, pour la suite du projet, on retransforme le texte brut en fichier xml grà¢ce au programme treetagger2xml.pl

 

Grâce au script créé (téléchargeable ici), on créé des fichiers de sortie xml qui ressemblent à  cela :

haut de page

Etiquetage avec Cordial

Cet étiqueteur ne peut être appelé en ligne de commande. Il faut absolument passer par son interface graphique.

De plus, il ne prend en entrée que des fichiers textes. Nous avons donc adapté notre premier script afin de générer toutes les entrées : voir nouveau script

Il est ensuite contraignant, répétitif et long d'étiqueter chaque texte.

Nous avons choisi de ne prendre que le minimum d'options pour la sortie : FORME/LEMME/CATEGORIE

Les fichiers de sortie ont une extension propre à  Cordial, ils sont en .cnr : exemple

haut de page