Boîte à outils 2

Dans cette partie de la chaîne de traitement des fils RSS, il faut segmenter en tokens le texte extrait, puis d'attribuer à chaque token la liste des catégories morphosyntaxiques qui lui correspondent (nom, verbe, adverbe, temps, mode, genre, etc.) et l'information concernant la lemmatisation du token. Cela peut être réalisé avec Cordial ou avec Treetagger.

On travaille sur le fichier de sortie all_extractions.txt de la Bao1 qui contient toutes les extractions des fichiers RSS traités. Ce texte est utilisé en Cordial pour la segmentation et pour faire un fichier Sortie_Cordial.cnr avec le texte étiqueté de l'étape Bao2. Les options de Cordial sont les suivants:

parapètrage Cordial

Pour utiliser le Treetagger, quelques lignes sont rajoutées dans le script de Bao1. Le programme tokenise-fr.pl transforme le fichier avec les extractions en fichier all_tokens.txt avec un mot par ligne. Puis, le programme tree-tagger.pl est appelé pour étiqueter les tokens dans Sortie_etiquetee.txt. Finalement, le programme treetagger2xml.pl transforme la sortie en format xml.

Le problème rencontré concernait la non compatibilité du Treetagger avec Windows Vista.

Un script Perl bao2_Cordial2XML.pl rend le résultat de l'étiquetage avec Cordial au format XML.

Résultats de Bao2 :

Script Perl de Bao2 : bao1_et_2_3.pl

Sortie de Cordial : Sortie_Bao2_Cordial.cnr

Script pour créer fichier XML de la sortie de Cordial : bao2_Cordial2XML.pl

Fichier de sortie Cordial : Sortie_Bao2_Cordial2XML.xml

Fichier de sortie Treetagger : Sortie_Bao2_Treetagger2XML.xml


jh© Ginka Yankova 2009