BàO2

Étiquetage du contenu textuel

À partir de la structure de la BàO1, on a incorporé aux scripts un étiqueteur morpho-syntaxique et un autre étiquetage qui étiquette aussi les relations syntaxiques en dépendances. Ces deux étiqueteurs sont TreeTagger et Udpipe. En ce qui concerne la segmentation du texte, nécessaire à l’étiquetage, on a utilisé le tokenisateur du TreeTagger. On a réalisé tous ses traitements sur la base de deux méthodes, déjà utilisées dans la première Boîte à Outils, via des expressions régulières et à partir de la bibliothèque XML::RSS de Perl. Les mêmes traitements sont incorporés au script Python.

On obtient comme résultats un fichier texte brut (comme celui produit par la BàO1), un fichier XML, avec un token par ligne étiqueté par TreeTagger, et un fichier format conll avec les résultats produit par UDpipe. Enfin, on a lancé deux scripts Perl, adaptés à l’étiquetage d'UDpipe et TreeTagger, pour convertir les fichiers produits en fichiers XML. Les documents obtenus seront utilisés dans la BàO3.

Méthodes : expressions régulières et XML::RSS

Les nouveaux traitements ont été incorporés en tant que procédures ou fonctions dans le script.

Les deux étiqueteurs ont été lancés depuis des répertoires locaux. La réutilisation de ces programmes, et avec eux, de leurs modèles pour le français, doit prendre en compte ce détail.

tree
Langage Méthode Téléchargement
Perl Expressions régulières
Perl Bibliothèque XML::RSS
Python Expressions régulières

Résultats

Voici les fichiers texte brut, les sorties XML étiquetés par TreeTagger et les versions conll et xml de l'étiquetage d'UDpipe. Tous les scripts produisent exactement le même résultat. La version Python offre le traitement le plus rapide, suivie par le script Perl (expressions régulières). Tous les fichiers XML produits sont des fichiers bien formés.

Fichier Rubrique Téléchargement
Texte 3208 - "À la une"
XML étiqueté par TT 3208 - "À la une"
conll par UDpipe 3208 - "À la une"
XML étiqueté par UDpipe 3208 - "À la une"
Texte 3232 - "Idées"
XML étiqueté par TT 3232 - "Idées"
conll par Udpipe 3232 - "Idées"
XML étiqueté par UDpipe 3232 - "Idées"
Texte 3260 - "Livres"
XML étiqueté par TT 3260 - "Livres"
conll par Udpipe 3260 - "Livres"
XML étiqueté par UDpipe 3260 -"Livres"
Texte 3476 -"Cinéma"
XML étiqueté par TT 3476 -"Cinéma"
conll par Udpipe 3476 - "Cinéma"
XML étiqueté par UDpipe 3476 -"Cinéma"

Précision : Il faut télécharger certains fichiers pour pouvoir bien les afficher. Ici vous trouverez les script pour transformer la sortie conll [1] et le texte étiqueté par TreeTagger en fichiers XML [2].