BOITES à outils

Samia Achouri
(master tal Paris 3)


   Programmation et projet encadré

Travail sur boites à outils:
Serie1(script perl)
Serie2(etiquetage)
Serie3(Extraction terminologique)
Serie4(Textes aux graphes)

Script perl

Première partie:Script perl

Un script perl((P.E.R.L. signifie Practical Extraction and Report Language. Que l'on pourrait (essayer de) traduire
par « langage pratique d'extraction et d'édition ».
Créé en 1986 par Larry Wall (ingénieur système). Au départ pour gérer un système de « News »
entre deux réseaux ,il permet de:
*Générer,mettre à jour'analyser des fichiers HTML(notammemt pour l'écriture deCGI),
*Avoir accès "universel" aux bases de données,
*Converser les formats de fichiers.))
et une arborescence de fils RSS ,nous y fournis afin de pouvoir atteindre notre objectif qui est celui d'écrire un script perl qui parcourt une arborescence de fichiers pour réaliser un programme qui permet le filtrage du contenu textuel des balises DESCRIPTION sous forme de fichier xml.
Nous avons obtenu en résultat un fichier de sortie(resultat-filtrage.pl )

Etiquetage.

Deuxième partie:Etiquetage.

Notre objectif dans cette partie avec l'étiqueteur tree_tagger,script perl et arborescence de fils RSS est d'écrire un script perl qui permet de parcourir une arborescence de fichiers pour extraire le contenu de balises"description",d'étiqueter le contenu extraits avec le programme tree tagger et créer en sortie un fichier xml avec le résultat du traitement.
En resultats nous avons obtenue:
* Deux fichiers structurés(resultat_tree_tagger_txt.xml)et(resultat_tree_tagger.xml.txt)
A l'aide de l'étiqueteur cordial et le fichier xml avec le contenu des balises"description"(resultat_ filtrage.xml),nous allons extraire le contenu des balises dans un fichier texte avec le programme cordial.
En resultat nous avons obtenu:
*un script qui permet d'extraire le contenu recherché dans un fichier(sortie.txt).
*Un fichier étiqueté par cordial(sortiecordial.txt ).

Extraction terminologique

Troisieme partie:Extraction terminologique

Tree-Tagger

Dans cette partie on rajoute un (programme) qui permet d'extraire des patrons syntaxiques à partir des resultats de tree-tagger (voir ici) ce programme va lire cet étiquetage et extraire les patrons syntaxiques.On lancant ce programme avec le patron(NOM ADJ et ADJ NOM) on obtient ceci :

Resultat du fichiers de termes:(resultat.txt)
Patron morpho-syntaxique:(P nom adj)
Trace du fichier:(cf)

Cordial

A partir d'un autre programme (cliquer ici) et le le fichier obtenu par l'étiqueteur cordial(fichier cordial) et le patron (NC +ADJ) on lance le programme avec cygwin et le resultat est le (suivant)

Des Textes aux Graphes

Quatrième partie:Textes aux graphes

a-Tree-Tagger

Dans cette partie notre objectif est de construire un graphe.En appliquant le( programme patron2graphml) au (fichier) obtenu dans la serie3 on obtient un (fichier xml) en sortie et l'application d'une (feuille de style xsl) nous donne ce resultat enregistrer sous format texte (resultat.net) charger sous pajek on obtient le graphe suivant(graphe treetagger.jpg)

b-Cordial
Pour cordial c'est le meme principe on a en resultats:
fichier xml (cf2)
résultat texte Cordial pour Pajek :( pajek_cordial.txt)
graphe de Cordial : (graphe_cordial.jpg)