bag



BàO 2: Etiquetage morphosyntaxique




On réalise, à partir des fichiers textes obtenus précédemment, un étiquetage morpho-syntaxique des mots.

Pour ce faire, on utilise deux méthodes différentes :

- Etiquetage avec Cordial : Cordial est un programme payant, disponible uniquement pour Windows et qui possède une interface graphique.

- Etiquetage avec TreeTagger : TreeTagger est un programme gratuit qui fonctionne en ligne de commandes.


Avec l'aide de M. Fleury, nous avons retravaillé notre script après BàO1.

fichier bao2_bascarane_dubremetz.pl    à voir | à télécharger


2010 (toutes rubriques)            texte brut (txt)     à télécharger
                                                           texte brut (xml)    à télécharger
                                                           texte (Cordial)      à télécharger  
                                                           texte (Lexico 3)    à télécharger  

2009 (toutes rubriques)          texte brut (txt)     à télécharger
                                                           
texte brut (xml)    à télécharger
                                                           texte (Cordial)      à télécharger                                                                                                             texte (Lexico 3)    à télécharger  


Cordial


Pour le logiciel Cordial, on va s’intéresser aux fichiers textes SORTIE_pour_Cordial_$rubrique.txt

Ces fichiers étant encodés en UTF-8 et le logiciel Cordial traitant les fichiers en ISO-8859-1, il fallait les convertir, ce qu’on a fait avec la commande iconv.



On ouvre, dans Cordial, le fichier texte encodé en ISO-8859-1 $rubrique_Cordial.txt 

Il suffit pour cela de charger le texte, de cliquer sur "Syntaxe" > "Etiquetage de texte" dans la barre de menu, et de tout décocher à l'exception de "Lemmes" dans la fenêtre qui apparaît.



On obtient en sortie un fichier (au format .cnr) comportant un mot par ligne, où chaque ligne suit le patron token [tabulation] lemme [tabulation] catégorie (différent de celui de TreeTagger).

On obtient les fichiers suivants au format cordial (CNR).

2010 (toutes rubriques)            fichier .cnr     à télécharger
2009 (toutes rubriques)             fichier .cnr     à télécharger 


TreeTagger


Nous avons créé une procédure &lancetreetagger que nous avons intégrée à la fin de notre script de Bà01.



 Toutefois, nous avons rencontré des erreurs à cause de l’UTF-8.



Ainsi Mr Fleury nous a aidées à reconcevoir notre script de Bà02 pour ne plus rencontrer cette erreur. Pour cela, nous avons créé la procédure &etiquetageavectreetagger.


fichier bao2_bascarane_dubremetz.pl    à voir | à télécharger


On obtient en sortie un fichier comportant un mot par ligne, où chaque ligne suit le modèle token [tabulation] catégorie [tabulation] lemme.


2010 (toutes rubriques)    fichier.xml passé par Treetagger     à télécharger

2009 (toutes rubriques)   fichier.xml passé par Treetagger     à télécharger
Bascarane Lydia & Dubremetz Marie - © 2011