BAO2 Étiquetage du texte
L'objectif de la seconde boîte à outils était l'étiquetage des données récupérées avec la BAO1. Cet étiquetage devait être réalisée à l'aide de Treetagger et de Udpipe. Ici encore deux méthodes seront employées (perl-regex et XML::RSS).
Vous trouverez donc ici les scripts permettant l'étiquetage et la création des fichiers de sorties txt et xml étiquetés.
Ci-dessous les scripts perl permettant l'étiquetage des données textuelles récoltées dans la BAO1.
Script Qishen - Script Zhuang - Script Tristan (même que Qishen mais pour rubriques 3208/3210)
On a intégré deux petits programmes externes:
treetagger2xml-utf8.pl - udpipe2xml.pl
Ces scripts permettent la génération de deux sortie : une sortie pour udpipe et une sortie pour treetagger par rubrique. Que vous trouverez ci-dessous. (Les sorties treetaggers sont ensuite reconverti au format xml, que vous trouverez également ci-dessous)
Sortie treetagger 3208 (txt) Sortie treetagger 3208 (xml) Sortie treetagger 3210 (txt) Sortie treetagger 3210 (xml) Sortie treetagger 3214 (txt) Sortie treetagger 3214 (xml) Sortie treetagger 3224 (txt) Sortie treetagger 3224 (xml) Sortie treetagger 3232 (txt) Sortie treetagger 3232 (xml) Sortie treetagger 3234 (txt) Sortie treetagger 3234 (xml) Sortie udpipe 3208 (txt) Sortie udpipe 3208 (xml) Sortie udpipe 3210 (txt) Sortie udpipe 3210 (xml) Sortie udpipe 3214 (txt) Sortie udpipe 3214 (xml) Sortie udpipe 3224 (txt) Sortie udpipe 3224 (xml) Sortie udpipe 3232 (txt) Sortie udpipe 3232 (xml) Sortie udpipe 3234 (txt) Sortie udpipe 3234 (xml)