BaO 2

Objetif BàO2 :

La BàO1 a produit 2 sorties : 1 fichier TXT et 1 fichier XML. Le fichier XML sera enrichi par un étiquetage via TreeTagger. On produira en outre un autre étiquetage via UDpipe sur les données TXT. Cette BàO, consistant en une amélioration de la BàO1, exécute les mêmes tâches que cette dernière, puis étiquette le fichier produit. Par conséquent, le corpus est le même que pour la BàO1 : les flux RSS du journal Le Monde de l'année 2020.

Pour rappel un Etiquetage Morphosyntaxique, ou Part-Of-Speech (POS) Tagging est une méthode consistant à associer à chaque unité lexicale d'un texte une "étiquette" contenant des informations sur la morphologie et les relations syntaxiques de cette unité (comme le genre, le nombre, la nature grammaticale ou la fonction). Chaque étiqueteur a son jeu d'étiquettes, souvent similaire aux autres mais comportant quelques spécificités de dénomination ou d'analyse.Treetager utilise ses propres étiquettes, Udpipe lui utilise les étiquettes du site universal dependencies.

BaO 2 : Perl

Voici le script en Perl

Script Perl




Résultats :

Rubrique Texte brut UDpipe TreeTagger
A la une (3208) sortie sortie sortie
Société (3224) sortie sortie sortie
Culture (3246) sortie sortie sortie
Cinéma (3476) sortie sortie sortie