Boîte à Outils 3

by Anna ANDRYCH & Marie SADOU

ETAPE 1 : Script trouve-cordial.pl


OBJECTIF : extraction des patrons sur les sorties de CORDIAL (au format TXT)

La boîte à outils 3 consiste à extraire des patrons à partir des fichiers de sortie de CORDIAL et de TREE-TAGGER. Les patrons auxquels nous allons nous intéresser principalement sont :

  • nom - nom (NN)
  • nom - adjectif (NADJ)
  • nom - préposition - nom (NPN)
  • En ce qui concerne la sortie de CORDIAL, nous allons extraire les patrons grâce à un script présenté et détaillé par M. Jean-Michel Daube. Ce programme PERL prend en entrée la sortie brute de l'étiquetage de CORDIAL. Pour que les fichiers de patrons soient compatibles, il faut convertir les fichiers grâce à une commande dos2Unix.

    En d'autres termes le script trouve-cordial.pl permet de rechercher des correspondances entre des patrons fournis par l'utilisateur et les étiquettes du texte dans le fichier de sortie de CORDIAL. Ce programme PERL prend en entrée le fichier de sortie de CORDIAL et le fichier contenant les étiquettes des patrons à rechercher dans le fichier.

    En effet, comme nous l'avons précisé précédemment, on peut constater que CORDIAL possède une notation qui lui est propre des catégories grammaticales.


    Pour télécharger le script : trouve-cordial1.pl





    PROBLEMES :

    A l'éxécution de ce programme, nous avons eu quelques soucis. En effet, les correspondances ne s'affichaient pas. Nous avons pu résoudre ce petit désagrément grâce à la commande dos2unix.exe. En effet, afin de faire fonctionner ce programme, il faut appliquer la commande dos2unix.exe à tous les programmes pris en entrée.


    Etape 2 : Recherche des patrons des fichiers de sortie issus de CORDIAL


    OBJECTIF : extraction des patrons sur les sorties de TREE-TAGGER (au format XML)

    Afin d'éxécuter notre script trouve-cordial1.pl, il doit prendre en argument un fichier contenant les divers patrons à rechercher dans les fichers de sortie de CORDIAL. Pour se faire, nous avons donc créé trois fichiers au format texte brut comportant les patrons à rechercher. Pour trouver les patrons, nous avons recherché dans les fichiers de sortie de CORDIAL toutes les formes qui se suivent nous intéressant :

  • nom - nom
  • nom - adjectif
  • nom - préposition - nom
  • NB : Nous traiterons la sortie de TREE-TAGGER avec une requête XPath dans l'éditeur XML-COOKTOP. Il faut naturellement qu'au préalable les fichiers XML soient bien formés.


    Fichier permettant de rechercher tous les patrons nom - nom :



    Télécharger le fichier : pos-NN.txt


    Sorties des patrons nom - nom :

    Voici ce qu'on obtient en sortie pour la rubrique du CINEMA :



    Télécharger le fichier : patronNN-cinema.txt


    Voici ce qu'on obtient en sortie pour la rubrique de la CULTURE :



    Télécharger le fichier : patronNN-culture.txt


    Fichier permettant de rechercher tous les patrons nom - adjectif :



    Télécharger le fichier : pos-NA.txt


    Sorties des patrons nom - adjectif :

    Voici ce qu'on obtient en sortie pour la rubrique du CINEMA :



    Télécharger le fichier : patronNA-cinema.txt


    Voici ce qu'on obtient en sortie pour la rubrique de la CULTURE :



    Télécharger le fichier : patronNA-culture.txt


    Fichier permettant de rechercher tous les patrons nom - préposition - nom :



    Télécharger le fichier : pos-NPN.txt


    Sorties des patrons nom - préposition - nom :

    Voici ce qu'on obtient en sortie pour la rubrique du CINEMA :



    Télécharger le fichier : patronNPN-cinema.txt


    Voici ce qu'on obtient en sortie pour la rubrique de la CULTURE :



    Télécharger le fichier : patronNPN-culture.txt



    PROBLEMES :

    Nous n'avons pas rencontré de problèmes particuliers pour l'éxécution de ces scripts portant sur les sorties de CORDIAL. Cependant, nous avons eu quelques soucis avec le script trouve-cordial1.pl au tout début avant de découvrir qu'il fallait absolument se servir de la commande dos2unix.exe.


    ETAPE 3 : Seconde méthode de recherche des patrons issus des fichiers de sortie de CORDIAL


    Par ailleurs, grâce au cours sur PERL que nous suivons le jeudi matin, M. Fleury nous a fait modifier et tester un script plus général que trouve-cordial1.pl.

    Avec cette seconde méthode de recherche de patrons issus des fichiers de sortie de CORDIAL, nous devons créer trois scripts(un pour chaque patron à rechercher) puisque ces scripts ne prennent en argument que le fichier de sortie de CORDIAL. Les patrons à rechercher sont spécifiés à l'intérieur du script à l'aide d'expressions régulières.


    Script permettant de rechercher les patrons nom - nom :

    Voici le script permettant de rechercher les patrons nom - nom : extract-patron-cordialNN.pl



    Voici la sortie une fois le script éxécuté :



    NB : Les sorties sont les mêmes que pour la première méthode patronNN-cinema.txt pour la rubrique du CINEMA et patronNN-culture.txt pour le rubrique de la CULTURE.


    Script permettant de rechercher les patrons nom - adjectif :

    Voici le script permettant de rechercher les patrons nom - adjectif : extract-patron-cordialNA.pl



    Voici la sortie une fois le script éxécuté :



    NB : Les sorties sont les mêmes que pour la première méthode patronNA-cinema.txt pour la rubrique du CINEMA et patronNA-culture.txt pour le rubrique de la CULTURE.


    Script permettant de rechercher les patrons nom - préposition - nom :

    Voici le script permettant de rechercher les patrons nom - préposition - nom : extract-patron-cordialNPN.pl



    Voici la sortie une fois le script éxécuté :



    NB : Les sorties sont les mêmes que pour la première méthode patronNPN-cinema.txtpour la rubrique du CINEMA et patronNPN-culture.txt pour le rubrique de la CULTURE.