Partie 1

Les exercices présentés ici visent à réaliser des programmes PERL dont le but est la manipulation de données textuelles. La plupart de ces programmes ont été élaborés pour analyser des textes fournis dans un CORPUS DE TRAVAIL : Le corpus prématurés (p96.bal, p96.fic, p96.tab, p96.tag), le fichier amants.txt et les fichiers desqueyroux.fr et desqueyroux.ang . Pour chaque exercice, sont présentés les script réalisés

Etape 1

Etape 2

Etape 3

  • Exercice 1
    Ce programme perl fournit sur la sortie standard l'ossature d'une page HTML : les balises de l'entête et celles du corps. Modifiez-le de façon à ce qu'il crée, dans le corps de la page, une liste numérotée. Les éléments de cette liste seront les lignes lues sur l'entrée standard (on lira toutes les lignes jusqu'a l'arrivée de fin de fichier sur l'entrée standard, et pour chaque ligne on créera un nouvel item de la liste en sortie). Le programme utilisera la première ligne aussi comme le titre de la page HTML. Appliquez le programme au fichier p96.fic
    -> Script
    -> Commande pour lancer le programme
    -> Résultat

  • Exercice 2
    En utilisant le programme perl qui fournit l'ossature d'une page HTML (voir ci-dessus), vous ferez en sorte qu'il lise deux fichiers (que vous ouvrirez à l'intérieur de votre programme). Vous créerez un tableau qui contiendra autant de lignes qu'il y a de lignes dans les fichiers lus. Chaque ligne du tableau contiendra deux cellules (colonnes) : dans la première cellule de la ligne n du tableau il y aura la ligne n du premier fichier, et dans la deuxième cellule la ligne n du deuxieme fichier. Vous modifierez le programme pour que le tableau contienne une colonne de plus qui sera le numéro de ligne. Vous appliquerez le programme aux versions en francais et en anglais ( desqueyroux.fr et desqueyroux.ang) de Therèse Desqueyroux (de Francois Mauriac) données dans le dossier CORPUS DE TRAVAIL pour obtenir le résultat présenté dans ce même dossier (desqueyrouxFR-ANG.html)
    -> Script
    -> Commande pour lancer le programme (on entre ici deux arguments car le programme doit fusionner ces deux fichiers en un seul)
    -> Résultat

Etape 4

  • Recherche de patrons syntaxiques dans le corpus. On utilisera ici la version étiquetée du corpus Prématurés 96 (p96.tag). On tentera de mettre au jour des structures syntaxiques récurrentes dans le corpus autour de formes pôles.
    Vous choisirez cinq formes graphiques différentes. Vous construirez ensuite un programme perl qui prend en entrée le fichier catégorisé et un nombre donné. Ce nombre définira la longueur de la fenêtre de mots que vous souhaitez extraire autour de la forme pôle.
    -> Script
    -> Commande pour lancer le programme, avec affichage des différentes questions posées à l'utilisateur pour cibler sa recherche
    -> Résultat