Boîte à outils n°2 (BAO2)
Annotations automatiques morpho-syntaxiques & en dépendances
avec Treetagger et UDpipe
L'objectif de cette deuxième partie est d'étiqueter ou annoter morpho-syntaxiquement et automatiquement chaque token (mot) du contenu textuel.
Les étiqueteurs utilisés dans ce projet sont TreeTagger et UDpipe.
Processus suivi pour annoter le contenu textuel
Le programme doit parcourir l'arborescence de fichiers et appliquer un traitement d'étiquetage sur chacun des fichiers rencontrés au moment du parcours. Deux stratégies peuvent être envisagées pour parcourir l'arborescence du dossier et étiqueter chaque mot extrait des balises "title" ou "description" des actualités :

Annotation/Etiquetage du contenu textuel à l'aide du langage de programmation PERL
Le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :
Sur le terminal, la requête suivante a été lancée perl BAO2-parcours-arborescence-fichiers.pl 2021 3210
En sortie, plusieurs fichiers sont récupérés :

Les liens vers ces fichiers de sortie sont disponibles ci-dessous :
Résultats
Fichier de sortie CONLL de l'étiqueteur UDpipe

Fichier de sortie XML de l'étiqueteur TreeTagger :

Annotation/Etiquetage du contenu textuel à l'aide du langage de programmation PYTHON
Un script PYTHON a été utilisé. Il est détaillé dans le lien ci-dessous :
Sur le terminal, la requête suivante a été lancée python BAO2_extract_un_fil_udpipe_parcours.py 2021 3210 output_xml.xml output_txt.txt
En sortie, deux fichiers sont récupérés :