Boite à Outils 3

Extraction de patrons morphosyntaxiques

Nous avons utilisé deux méthodes d'extraction en BAO1 et deux programmes d'étiquetage en BAO2. Nous allons à présent extraire des patrons morphosyntaxiques depuis nos fichiers étiquetés et un fichier de patrons selon quatre approches différentes.

Methode 1 : Extraction de patrons à partir de fichiers Cordial avec un script perl :

La première methode proposée était celle de notre professeur Serge Fleury.
Cette methode consiste à produire des patrons à partir des fichiers annotés par Cordial.
Le principe est simple on demande au programme de regarder chaque ligne de la liste Cordial et on enlève systématiquement le premier élément de la liste.
Si la ligne n'est pas intéressante, on dit au programme de la jetter, il ne gardera dans la liste que les lignes qui nous intéressent. Si la première ligne comprend le premier élément du patron alors on va regarder si la ligne suivante contient l'élément suivant.

Vous pouvez télécharger le script d'extraction de patrons terminologiques que notre professeur nous a fourni ici. Il est spécifique au fichier cordial mais il est facile de le modifier pour qu'il extrait les patrons des fichiers annotés par treetagger.

Voici une image de notre script :

Pour executer ce script, il faut être en possession de trois fichiers le script, le fichier cordial et le fichier patron.

Methode 2 : Extraction de patrons avec XSLT/XPATH

La première methode proposée était celle de notre professeur Jean-Michel Daube.
Cette methode consiste à construire une feuille de styles XSLT pour extraire des patrons. Pour executer le script on a en entrée les fichiers des textes bruts issus de l'étiquetage via Treetagger.

Voici la feuille xsl que nous avons produit :

Methode 3 : Extraction de patrons avec scripts perl

Nous avons vu avec Jean Michel Daube un script perl permettant d'extraire les patrons morphosyntaxiques depuis le fichier cnr. Vous pouvez trouver le script de cette méthode ici.
Nous avons obtenu le fichier suivant: terminologie.txt

Methode 4 : XML::LibXML

Rachid Belmouhoub nous a présenté un script faisant appel à la librairie XML::LibXML permettant d'extraire les patrons morphosyntaxiques. Vous pouvez trouver le script de cette méthode ici.
Nous avons obtenu le fichier suivant: res_extract-NOM_ADJ.txt

A l'aventure !

Découvrez notre projet

Savoir Faire

Tout pour partir bien équipé !

Qui sommes-nous ?

Mystère ...

« Pour que l'événement le plus banal devienne une aventure, il faut et il suffit qu'on se mette à le raconter. »
Jean-Paul Sartre

Carnet de Voyage

Découvrez nos aventures en temps réél.

Ce blog weebly nous a servi de carnet de bord durant le semestre. N'hésitez pas à le feuilleter si vous souhaitez lire nos aventures dans les moindre détails.

Notre Formation

Découvrez le site internet de notre formation.

Vous vous intéressez à notre master ou vous êtes tout simplement curieux ? N'hésitez pas à visiter le site Plurital qui vous permettra d'obtenir toutes informations sur notre formation.