À partir de la structure de la BàO1, on a incorporé aux scripts un étiqueteur morpho-syntaxique et un autre étiquetage qui étiquette aussi les relations syntaxiques en dépendances. Ces deux étiqueteurs sont TreeTagger et Udpipe. En ce qui concerne la segmentation du texte, nécessaire à l’étiquetage, on a utilisé le tokenisateur du TreeTagger. On a réalisé tous ses traitements sur la base de deux méthodes, déjà utilisées dans la première Boîte à Outils, via des expressions régulières et à partir de la bibliothèque XML::RSS de Perl. Les mêmes traitements sont incorporés au script Python.
On obtient comme résultats un fichier texte brut (comme celui produit par la BàO1), un fichier XML, avec un token par ligne étiqueté par TreeTagger, et un fichier format conll avec les résultats produit par UDpipe. Enfin, on a lancé deux scripts Perl, adaptés à l’étiquetage d'UDpipe et TreeTagger, pour convertir les fichiers produits en fichiers XML. Les documents obtenus seront utilisés dans la BàO3.
Méthodes : expressions régulières et XML::RSS
Les nouveaux traitements ont été incorporés en tant que procédures ou fonctions dans le script.
Les deux étiqueteurs ont été lancés depuis des répertoires locaux. La réutilisation de ces programmes, et avec eux, de leurs modèles pour le français, doit prendre en compte ce détail.
Langage | Méthode | Téléchargement |
---|---|---|
Perl | Expressions régulières | |
Perl | Bibliothèque XML::RSS | |
Python | Expressions régulières |
Résultats
Voici les fichiers texte brut, les sorties XML étiquetés par TreeTagger et les versions conll et xml de l'étiquetage d'UDpipe. Tous les scripts produisent exactement le même résultat. La version Python offre le traitement le plus rapide, suivie par le script Perl (expressions régulières). Tous les fichiers XML produits sont des fichiers bien formés.
Précision : Il faut télécharger certains fichiers pour pouvoir bien les afficher. Ici vous trouverez les script pour transformer la sortie conll [1] et le texte étiqueté par TreeTagger en fichiers XML [2].