BAO2 - Etiquetage du texte

Les contenus textuels extraits de la BAO1 doivent être étiquetés automatiquement grâce à deux méthodes d'étiquetage. La première est Treetagger et la seconde, UDpipe qui permettent d'annoter morpho-syntaxiquement et en dépendances, le contenu textuel.

Nous avons choisi d'insérer ce programme dans celui produit en BAO1, pour récupérer les données et les étiqueter au fil de l'eau.


Méthode 1 : Regexp


Programme Perl
Programme Perl

Résultats :


Treetagger Rubrique - Europe / 3214, fichier xml
Treetagger Rubrique - Livres / 3260, fichier xml
Treetagger Rubrique - Cinéma / 3476, fichier xml
Treetagger Rubrique - Technologies / 651865, fichier xml


UDPipe Rubrique - Europe / 3214, fichier txt
UDPipe Rubrique - Livres / 3260, fichier txt
UDPipe Rubrique - Cinéma / 3476, fichier txt
UDPipe Rubrique - Technologies / 651865, fichier txt

Méthode 2 : XML:RSS


La seconde méthode prend en considération la structuration logique du texte (sous la forme d'un arbre de la "Famille RSS" et sa modélisation dans un programme pour n'avoir qu'à "cueillir" les textes visés.


Résultats :


Programme Perl

Treetagger Rubrique - Livres / 3260
Treetagger Rubrique - Europe / 3214
Treetagger Rubrique - Cinéma / 3476
Treetagger Rubrique - Technologies / 651865


UDPipe Rubrique - Livres / 3260, fichier txt
UDPipe Rubrique - Livres / 3260, fichier xml
UDPipe Rubrique - Europe / 3214, fichier txt
UDPipe Rubrique - Europe / 3214, fichier xml
UDPipe Rubrique - Cinéma / 3476, fichier txt
UDPipe Rubrique - Cinéma / 3476, fichier xml
UDPipe Rubrique - Technologies / 651865, fichier txt
UDPipe Rubrique - Technologies / 651865, fichier xml