Étiquettage grâce à treetagger et talismane (nouveau au programme).
Objectif et déroulement :
La BaO2 va fonctionner un peu comme la première, mais en ajoutant un élément supplémentaire : l'étiquettage.
Pour cela, il faut :
- Tokeniser nos fichiers (XML ou txt?), ce que l'on fera grâce au script tokenise-utf8 (fourni par Mr Fleury, modifié par nous).
- Étiquetter parallélement par Treetagger et Talismane, cela nous permettra de comparer les deux approches.
- Dans le cas de treetager, utiliser le script treetagger2xml-utf8 pour récupérer l'étiquettage et l'écrire en xml.
À la fin, nous aurons un fichier XML entièrement étiqueté.

Code :
Autres scripts utilisés pour cette phase
tokenise-utf8
Syntaxe :
perl < lien-tokenise-utf8 > -f < lien-input-txt >
> lien-output.txt
On peut enchainer les commandes :
perl < lien-tokenise-utf8.pl > -f < lien-input-txt >
| tree-tagger < lien-fichier-par > -token -lemma -no-unknown
> < lien-output-txt >
On aura un fichier txt, dans le dossier d'où on appelle le script.
Ce fichier contiendra sur chaque ligne TOKEN - POS - LEMME.
C'est ce fichier que devra utiliser treetagger2xml-utf8.
treetagger2xml-utf8
Syntaxe :
perl < lien-treetagger2xml-utf8 > < lien-input-txt > <
encodage (utf8 ici) >
On aura un fichier xml, dans le dossier d'où on appelle le script.
Il aura exactement le même nom, avec .xml rajouter en fin.
