Boite à outils

BAO2 Étiquetage du texte

Une boite à outils vraiment élégante

L'objectif de la seconde boîte à outils était l'étiquetage des données récupérées avec la BAO1. Cet étiquetage devait être réalisée à l'aide de Treetagger et de Udpipe. Ici encore deux méthodes seront employées (perl-regex et XML::RSS).

Vous trouverez donc ici les scripts permettant l'étiquetage et la création des fichiers de sorties txt et xml étiquetés.

Script Perl

Ci-dessous les scripts perl permettant l'étiquetage des données textuelles récoltées dans la BAO1.

Script Qishen - Script Zhuang - Script Tristan (même que Qishen mais pour rubriques 3208/3210)

On a intégré deux petits programmes externes:

treetagger2xml-utf8.pl - udpipe2xml.pl

Temps d'exécution du script principal de BAO2
RubriquesNombre d'itemsTemps d'exécution/s
320866951460.30248
321072801141.001973
32147260824.365207
322472801223.189414
323272601623.220976
323472601229.087975

Ces scripts permettent la génération de deux sortie : une sortie pour udpipe et une sortie pour treetagger par rubrique. Que vous trouverez ci-dessous. (Les sorties treetaggers sont ensuite reconverti au format xml, que vous trouverez également ci-dessous)

Sortie treetagger 3208 (txt)
Sortie treetagger 3208 (xml)
Sortie treetagger 3210 (txt)
Sortie treetagger 3210 (xml)
Sortie treetagger 3214 (txt)
Sortie treetagger 3214 (xml)
Sortie treetagger 3224 (txt)
Sortie treetagger 3224 (xml)
Sortie treetagger 3232 (txt)
Sortie treetagger 3232 (xml)
Sortie treetagger 3234 (txt)
Sortie treetagger 3234 (xml)
Sortie udpipe 3208 (txt)
Sortie udpipe 3208 (xml)
Sortie udpipe 3210 (txt)
Sortie udpipe 3210 (xml)
Sortie udpipe 3214 (txt)
Sortie udpipe 3214 (xml)
Sortie udpipe 3224 (txt)
Sortie udpipe 3224 (xml)
Sortie udpipe 3232 (txt)
Sortie udpipe 3232 (xml)
Sortie udpipe 3234 (txt)
Sortie udpipe 3234 (xml)