Boîte à Outils 3

On crée un nouveau script qui, à partir des fichiers de sortie Cordial (resultat_bao2_cordial.cnr) et TreeTagger (resultat_bao2_treetagger.xml), réalise une extraction terminologique.
On utilise pour cela plusieurs méthodes différentes :

- Extraction terminologique avec un script Perl.

- Extraction terminologique avec le module XML::XPath.

- Extraction terminologique avec des feuilles de style XSLT.


Schémas :






Script Perl simple

On utilise en entrée le fichier de sortie Cordial précédent (resultat_bao2_cordial.cnr) ainsi qu'un fichier texte contenant les patrons syntaxiques (patrons_syntaxiques_cordial.txt).
Remarque : On a remplacé la catégorie des noms propres "NP" par "NC".

Commande :


Script bao3_cordial.pl [Voir] [Télécharger] 1,6 kB

On obtient, pour chaque patron syntaxique, un fichier texte.

Résultats :

• Fichier resultat_bao3_cordial_ADJ_ADJ_NC_ADJ_ADJ.txt [Voir] 277 B

• Fichier resultat_bao3_cordial_ADJ_NC.txt [Voir] 85,7 kB

• Fichier resultat_bao3_cordial_NC_ADJ.txt [Voir] 176,2 kB

• Fichier resultat_bao3_cordial_NC_NC.txt [Voir] 55,2 kB

• Fichier resultat_bao3_cordial_NC_PREP_NC.txt [Voir] 81,0 kB





XML::XPath

On utilise en entrée le fichier de sortie TreeTagger précédent au format XML (resultat_bao2_treetagger.xml) ainsi qu'un fichier texte contenant les patrons syntaxiques (patrons_syntaxiques_treetagger.txt).
Remarque : On a remplacé la catégorie des noms propres "NAM" par "NOM".

Commande :


Script bao3_treetagger.pl [Voir] [Télécharger] 1,6 kB

On obtient, pour chaque patron syntaxique, un fichier texte.
L'un des grands inconvénients de cette méthode, c'est qu'elle est très lente pour analyser et donner des résultats. Il faut compter environ 30 minutes pour un fichier de 1 MB.

Résultats :

• Fichier resultat_bao3_treetagger_ADJ_ADJ_NOM_ADJ_ADJ.txt [Voir] 47 B

• Fichier resultat_bao3_treetagger_ADJ_NOM.txt [Voir] 45,8 kB

• Fichier resultat_bao3_treetagger_NOM_ADJ.txt [Voir] 165,6 kB

• Fichier resultat_bao3_treetagger_NOM_NOM.txt [Voir] 73,2 kB

• Fichier resultat_bao3_treetagger_NOM_PRP_NOM.txt [Voir] 210,1 kB





XSLT::XPath

On utilise en entrée le fichier de sortie TreeTagger précédent au format XML (resultat_bao2_treetagger.xml) ainsi qu'une feuille de style XSLT suivant le patron syntaxique que l'on veut extraire.
Pour associer le fichier XML à sa feuille de style XSLT, il faut ajouter, en-dessous de la première ligne du fichier XML, la ligne suivante :

<?xml-stylesheet type="text/xsl" href="nom_feuille_de_style.xsl"?>


Feuilles de style XSLT :

• Feuille de style feuille_style_ADJ_ADJ_N_ADJ_ADJ.xsl [Voir] 2,2 kB

• Feuille de style feuille_style_ADJ_N.xsl [Voir] 1,3 kB

• Feuille de style feuille_style_N_ADJ.xsl [Voir] 1,3 kB

• Feuille de style feuille_style_N_N.xsl [Voir] 1,3 kB

• Feuille de style feuille_style_N_PREP_N.xsl [Voir] 1,6 kB


On obtient alors le résultat sous la forme d'une feuille HTML.
Remarque : Pour un souci de place et de rapidité (Le fichier XML faisant environ 25 MB), seuls les résultats des associations fichier XML + feuille de style XSLT enregistrés au format HTML sont disponibles.

Résultats :

• Patron syntaxique : ADJ ADJ N ADJ ADJ [Voir] 939 B

• Patron syntaxique : ADJ N [Voir] 218,7 kB

• Patron syntaxique : N ADJ [Voir] 720,9 kB

• Patron syntaxique : N N [Voir] 359,9 kB

• Patron syntaxique : N PREP N [Voir] 1,1 MB