Boîte à Outils 2

pluriTAL  M1 Paris 3
  • Accueil
  • BàO 1
  • BàO 2
  • BàO 3
  • BàO 4
  • Conclusion

BàO 2 : Etiquetage

Objectif

Etiqueter les données extraites par la BàO 1

Deux ressources pour l'étiquetage

Treetagger et Talismane

C'est parti !

Etiquetage avec Treetagger

Notez bien qu'on travaille dans le répertoire Treetagger qui contient tous les outils de Treetagger

Après le nettoyage des données, on les passe à une fonction qu'on crée pour faire l'étiquetage avec Treetagger.

Lancement de Treetagger:

perl tokenise-utf8.pl -f temp.txt | tree-tagger.exe -token -lemma -no-unknown french-utf8.par > temp_tag.txt" ;

perl5.28.1 treetagger2xml-utf8.pl temp_tag.txt utf8" ;

Dans la fontion d'étiquetage, on lance deux fois le Treetagger pour étiquetter séparément les titres et les descriptions.

La sortie d'étiquetage est un fichier xml.

Télécharger le script et les résultats :

BAO2_treetagger.pl sortie-3208-regexp-treetagger.xml sortie-3210-regexp-treetagger.xml

Etiquetage avec TALISMANE

Notez bien qu'on travaille dans le répertoire TALISMANE qui contient tous les outils de Talismane.

Talismane est un programme java, il est rappelé à l'intérieur du script perl pour être exécuté. Avec le Talismane, on étiquette tous les fichiers RSS en une fois grâce à une variable qui s'appelle $pourtalismane, on concatène tous les titres et toutes les descriptions dans cette variable et on la transmet au programme Talismane pour continuer l'étiquetage.

Cependant, le temps pour l'étiquetage avec Talismane est un peu long, c'est aussi pourquoi on met toutes les données dans une même variable et on lance le programme seulement une fois.

Lancement de Talismane:

java -Xmx1G -Dconfig.file=talismane-fr-5.0.4.conf -jar talismane-core-5.1.2.jar --analyse --sessionId=fr --encoding=UTF8 --inFile=bao1_test.txt --outFile=bao1_test.tal

Pour faciliter le travail de BàO 3, entre les titres et les descriptions, on met les délimiteurs comme :

$pourtalismane = $pourtalismane . "££debuttitre££\n\n" . $titrenettoyetal . "\n" . "££fintitre££\n\n" . "££debutdescription££\n\n" . $descriptionnettoyetal . "\n" . "££findescription££\n\n" ;

La sortie d'étiquetage est un fichier au format texte.

Télécharger le script et les résultats :

BAO2_talismane.pl sortie-3208-regexp-talismane.txt sortie-3210-regexp-talismane.txt

Remarques

On a exécuté les scripts dans le cygwin et toutes les deux méthodes d'étiquetage prennent assez beaucoup de temps, presque deux heures pour chaque rubrique. Quant aux résultats des deux méthodes, la sortie de Treetagger est un fichier txt et la sortie de Talismane est un fichier xml qui montre une structure de l'arborescence. Dans le fichier Talismane, les différentes parties sont séparées par les délimiteurs qu'on ajoute dans le script, mais dans le fichier Treetagger, les titres et les desciptions sont mises dans les différentes balises correspondantes. Quant aux informations incluses dans les fichiers, le fichier Treetagger comprend les mots et leurs lemmas et parties du discours, par contre, dans le fichier Talismane, à part les lemmas et les catégories du mot, les relations d'indépendance sont aussi présentes.

PROJET ENCADRÉ 2
© SONG Yuchen & YAN Meixin