Secteur TAL Informatique
ILPGA Université Paris 3
Parcours TAL : step 3
Programmation avec Perl (1)
Nous allons ici travailler avec le langage de programmation Perl pour
manipuler le corpus Prématurés.
Perl Présentation
Pour une présentation de Perl, lire les textes présentés
sur le site TAL-Paris3.
La première partie du TP3 permet de construire quelques programmes
simples sur le corpus de travail. Il s'agit en particulier de construire
un programme de comptage de mots. En français la règle veut
que les mots soient couramment séparés par des espaces, mais
ceci n'est pas toujours le cas. Les mots composés tels que ‘pomme
de terre’ ou les mots suivis d'apostrophes dérogent à
cette règle. Pour des raisons de simplification, on utilisera cette
règle pour calculer le nombre de mot. En résumé, pour
obtenir le nombre de mots d'une phrase, il suffit de compter le nombre
d'espaces et d'ajouter 1. Par exemple la phrase "le chien mange son maître."
a 4 espaces et donc 5 mots. De même on considère que le nombre
d’espaces entre les mots constituant la phrase n’est pas supérieur
à 1 (c'est-à-dire qu'il n'y a pas deux espaces consécutifs)..
Constitution de dictionnaires et de nouveaux corpus
Dans cette partie, les programmes construits doivent lire
différents états du corpus pour construire de nouveaux fichiers.
Il importe donc pour commencer de bien connaître les différents
états des fichiers disponibles.
On peut ensuite construire des programmes qui vont lire un état
donné d'un fichier pour en produire un autre.
La deuxième partie du TP3 vise à la construction de dictionnaire à partir de différents états du corpus.
La troisième partie du TP3 vise à la construction de nouveaux états du corpus à partir de données textuelles diverses. Il s'agira en particulier de voir comment a été construit la version HTML du corpus : i.e. comment passer des fichiers au format TXT vers des fichiers au format HTML.