Projet Encadré.

BàO 2: "Etiquetage du texte"

Nous allons ensuite étiqueter les corpus RSS avec udpipe et treetagger.

Script en PERL : BAO2.pl

Commande afin de lancer le script : perl BAO2.pl ../../2021 3246.

On obtient le résultat suivant:

Deux fichiers : un fichier .udpipe et aussi un fichier .xml consistant en l'étiquetage avec treetagger.

FICHIER UDPIPE | | FICHIER XML FORMAT TREETAGGER

Script en Python : BAO2.py

" Commande afin de lancer le script : python3 BAO2.py ../../2021 3246 "sortie en xml" "sortie en txt". Nous avons nommé les fichiers de sortie titre-description-3246-python.xml et titre-description-3246-python.txt.

On obtient le résultat suivant:

À l'issu de cette commande, nous obtenons un fichier txt en format CONLL et aussi un fichier XML étiqueté par treetagger.

FICHIER TXT FORMAT CONLL | | FICHIER XML TREETAGGER






  • © Mohamad Quzairie TALIB. All rights reserved