Étiquetage des contenus des fils

Treetagger et UDpipe : annotation en morpho-syntaxe et en dépendances

Objectifs

‐ La BàO1 a produit 2 sorties : 1 fichier TXT et 1 fichier XML
‐ Le fichier XML sera enrichi par un étiquetage via TreeTagger
‐ On produira en outre un autre étiquetage via UDpipe sur les données TXT

Mise en œuvre

1. Perl et les RegExp    script
2. Convertir résultat Treetagger en XML    script
3. Convertir résultat UDpipe en XML    script

Nous avons choisi d'étiqueter globalement les contenus extraits au lieu de les étiqueter au moment de chaque extraction. Cette dernière nécessite d'activer l'étiqueteur continuellement, ce qui aura pour incidence de ralentir le programme.

résultats :     Treetagger    UDpipe