Secteur TAL Informatique

ILPGA Université Paris 3

Parcours TAL : step 3

Programmation avec Perl (1)


Nous allons ici travailler avec le langage de programmation Perl pour manipuler le corpus Prématurés.
 
 

Perl Présentation

  • Transparents PERL : slide PERL

  • Pour une présentation de Perl, lire les textes présentés sur le site TAL-Paris3.

    La première partie du TP3 permet de construire quelques programmes simples sur le corpus de travail. Il s'agit en particulier de construire un programme de comptage de mots. En français la règle veut que les mots soient couramment séparés par des espaces, mais ceci n'est pas toujours le cas. Les mots composés tels que ‘pomme de terre’ ou les mots suivis d'apostrophes dérogent à cette règle. Pour des raisons de simplification, on utilisera cette règle pour calculer le nombre de mot. En résumé, pour obtenir le nombre de mots d'une phrase, il suffit de compter le nombre d'espaces et d'ajouter 1. Par exemple la phrase "le chien mange son maître." a 4 espaces et donc 5 mots. De même on considère que le nombre d’espaces entre les mots constituant la phrase n’est pas supérieur à 1 (c'est-à-dire qu'il n'y a pas deux espaces consécutifs)..
     

    Constitution de dictionnaires et de nouveaux corpus


    Dans cette partie, les programmes construits doivent  lire différents états du corpus pour construire de nouveaux fichiers.
    Il importe donc pour commencer de bien connaître les différents états des fichiers disponibles.
    On peut ensuite construire des programmes qui vont lire un état donné d'un fichier pour en produire un autre.

    La deuxième partie du TP3 vise à la construction de dictionnaire à partir de différents états du corpus.

    La troisième partie du TP3 vise à la construction de nouveaux états du corpus à partir de données textuelles diverses. Il s'agira en particulier de voir comment a été construit la version HTML du corpus : i.e. comment passer des fichiers au format  TXT vers des fichiers au format HTML.

     

    Rechercher une entrée du TLFi :

     

    Rechercher une entrée du XMLittré :