S5 : Étiquetage
- Clôture BàO1 : extraction des contenus textuels
- Début BàO2 : étiquetage
script perl qui convertit le format issu de l'étiquetage vers XML
script perl de segmentation en mot
‐ La BàO1 a produit 2 sorties : 1 fichier TXT et 1 fichier XML
‐ Le fichier XML sera enrichi par un étiquetage via TreeTagger
‐ On produira en outre un autre étiquetage via UDpipe sur les données TXT
1. Perl et les RegExp
script
2. Convertir résultat Treetagger en XML
script
3. Convertir résultat UDpipe en XML
script
Nous avons choisi d'étiqueter globalement les contenus extraits au lieu de les étiqueter au moment de chaque extraction. Cette dernière nécessite d'activer l'étiqueteur continuellement, ce qui aura pour incidence de ralentir le programme.
résultats : Treetagger UDpipe